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1.3 FPM 


1.3.1 概述 


FPM(FastCGI Process Manager) E DHD FastCGI 运 行 模式 的 一 个 进程 管理 器 ， 从 
它 的 定义 可 以 看 出 ，FPM 的 核心 功能 是 进程 管理 ， 那 么 它 用 来 管理 什么 进程 呢 ? 这 
个 问题 就 需要 从 FastCGI 说 起 了 。 


FastCGI 是 Web 服 务 器 (如 ` Nginx、Apache) 和 处 理 程序 之 间 的 一 种 通信 协议 ， 它 是 
与 Http 类 似 的 一 种 应 用 层 通 信 协 议 ， 注 意 : 它 只 是 一 种 协议 ! 


前 面 曾 一 再 强调 ，PHP 只 是 一 个 脚本 解析 器 ， 你 可 以 把 它 理解 为 一 个 普通 的 函数 ， 
输入 是 PHP 有 和 脚本。 输出 是 执行 结果 ， 假 如 我 们 想 用 PHP 代 替 shell， 在 命令 行 中 执行 
一 个 文件 ， 那 么 就 可 以 写 一 个 程序 来 将 入 PHP 解 析 器 ， 这 就 是 cl 模式， 这 种 模式 下 
PHP 就 是 普通 的 一 个 命令 工具 。 接 着 我 们 又 想 : 能 不 能 让 PHP 处 理 http 请 求 呢 ? 这 
ge p a AR a a 
在 网 络 应 用 场景 下 ，PHP 并 没有 像 Golang 那 样 实现 http 网 络 库 ， 而 是 实现 了 
FastCGI 协 议 ， 然 后 与 web 服 务 器 E EE 
een 告 果 再 通过 FastCGI 协 议 转 发 给 处 理 程序 ， 处 理 程 序 处 理 完成 后 
将 结果 返回 给 Web 服务器 ，wWeb 服 务 器 再 返回 给 用 户 ， 如 下 图 所 示 。 


E 一 (ET /xxx?id=xx HTTP/1. > — Fas LL D ip 


本 HTTP/11 OK P a ln 
s 3 Ar Bg 
Web 服务 器 处 理 程 序 





DEE 
型 : 多 进程 、 多 线程 ， 多 进程 模型 通常 是 主 进程 只 负责 管理 子 进 程 ， Ge 
事件 由 各 个 子 进程 处 理 ，nginx、fpm 就 是 这 Gem ES 种 多 线程 模型 与 多 进程 类 

似 ， 只 是 它 是 线程 粒度 ， 通 常会 由 主线 程 监听 、 接 收 请 求 ， 然 后 交 由 子 线程 处 理 ， 
memcached 就 是 这 种 模式 ， 有 的 也 是 采用 多 进程 那 种 模式 : 主线 程 只 负责 管理 子 
线程 不 处 理 网 络 事件 ， 各 个 子 线程 监听 、 接 收 、 处 理 请 求 ， memcached 使 用 udp 协 
议 时 采用 的 是 这 种 模式 。 


1.3.2 基本 实现 


概括 来 说 ，fpm 的 实现 就 是 创建 一 个 master 进 程 ， 在 master 进 程 中 创建 并 监听 
Socket， 然 后 fork 出 多 个 子 进 程 ， 这 些 子 进程 各 自 accept 请 求 ， 子 进程 的 处 理 非常 
简单 ， 它 在 启动 后 阻塞 在 accept 上 ， 有 请 求 到 达 后 开始 读 取 请 求 数据 ， 读 取 完 成 后 
开始 处 理 然 后 再 返回 ， 在 这 期 间 是 不 会 接收 其 它 请 求 的 ， 也 就 是 说 fpm 的 子 进程 同 
时 只 能 响应 一 个 请 求 ， 只 有 把 这 个 请 求 处 理 完 成 后 才 会 accept 下 一 个 请 求 ， 这 一 点 
与 nginx 的 事件 驱动 有 很 大 的 区 别 ，nginx 的 子 进程 通过 epoll 管 理 套 接 字 ， Ee 
请 求 数据 还 未 发 送 完成 则 会 处 理 下 一 个 请 求 ， 即 一 个 进程 会 同时 连接 多 个 请 求 ， 
是 非 阻塞 的 模型 ， 只 处 理 活跃 的 套 接 字 。 


fpm 的 master 进 程 与 worker 进 程 之 间 不 会 直接 进行 通信 ，master 通 过 共享 内 存 获 取 
worker 进 程 的 信息 ， 比 如 worker 进 程 当前 状态 、 pe 求 数 等 ， 当 master 进 程 要 
杀 掉 一 个 worker 进 程 时 则 通过 发 送信 号 的 方式 通知 worker 进 程 。 


fpm 可 以 同时 监听 多 个 端口 ， 每 个 端口 对 应 一 个 worker pool， 而 每 个 pool 下 对 应 多 
个 worker 进 程 ， 类 似 nginx 中 server 概 念 


worker pool 1 worker pool 2 
listen:127.0.0.1:9000 listen:127.0.0.1:9001 





在 php-fpm.conf 中 通过 [pool name] 声明 一 个 worker pool : 


[web1] 
listen = 127.0.0.1:9000 


[web2] 
listen = 127.0.0.1:9001 


启动 fpm 后 查看 进程 : ps -aux|grep fpm 


root 
php-fpm: master process (/usr/local/php7/etc/php-fpm.conf) 


27155 0.0 0.1 144704 2720 ? Ss 15:16 


nobody 27/156 0.0 0.1 144676 2416 ? S T516 
php-fpm: pool web1 
nobody 27/157 0.0 0.1 144676 2416 ? S 15:16 
php-fpm: pool web1 
nobody 27/159 0.0 0.1 144680 2376 ? S 15:16 
php-fpm: pool web2 
nobody 27/160 0.0 0.1 144680 2376 ? S 15:16 


php-fpm: pool web2 


O: 


00 


:00 


:00 


:00 


:00 


具体 实现 上 worker pool 通 过 fpm_worker_pool s 这 个 结构 表示 ， 多 个 worker 
pool 组 成 一 个 单 链表 : 


struct fpm_worker_ pool s { 


struct fpm worker _ pool s *next; // 指 向 下 一 个 worker pool 


struct fpm worker_pool config s *config; //conf 配 置 :pm、max_c 


hildren ` start_servers... 


int listening_socket; // 监 听 的 套 接 字 


// 以 下 这 个 值 用 于 master 定 时 检查 、 记 录 wWorker 数 

struct fpm_child_s *children; // 当 前 p001 的 worker 链 表 
int running_children; // 当 前 p001 的 worker 运 行 总 数 
int idle _ spawn rate: 


int warn max Children: 


struct fpm_scoreboard s Secoreboard: // 记 录 worker 的 运行 信 ， 
空闲 、 忙 碌 worker 数 


1.3.3 FPM 的 初始 化 


接 下 来 看 下 fpm 的 启动 流程 ， 从 maint) äi: 


自 


> 


s H 
上 


//sapi/fpm/fpm/fpm_main.c 
int main(int argc, char *argv[]) 


{ 


// 注 册 SAPI :将 全 局 变量 sapi_module 设 置 为 cgi _sapi module 


sapi_startup(&cgi sapi module); 


// 执 行 php_module_starup() 
if (cgi sapi module.startup(&cgi sapi modulei == FAILURE) { 
return FPM_EXIT_SOFTWARE; 


人 
// 初 始 化 


if(9 > fpm_init(...)){ 


fpm_is_running = 1; 


d 


fcgi fd = fpm_run(&max_requests);// 后 面 都 是 worker 进 程 的 操作 ，ma 
$ 


e DE E 


ster 进 程 不 
parent = 0; 


fpm_init() 主要 有 以 下 几 个 关键 操作 : 
(1)ifpm_conf mt main(): 


解析 php-fpm.conf 配 置 文件 ， 分 配 worker pool 内 存 结构 并 保存 到 全 局 变量 中 : 
fpm_worker al _ pools， 各 worker pool 配 置 解析 到 fpm_worker_pool s- 
>config 中 。 


(2)fpm_scoreboard_ Init main(): 分 配 用 于 记录 Worker 进 程 运 行 信 息 的 共享 内 存 ， 
按照 worker pool 的 最 大 worker 进 程 数 分 配 ， 每 个 worker pool 分 配 一 

个 fpm_scoreboard s 结构 ，pool 下 对 应 的 每 个 worker 进 程 分 配 一 

个 fpm_scoreboard_proc_s 结构 ， 各 结构 的 对 应 关系 如 下 图 。 


1.3 FPM 


fpm_scoreboard s 


fpm_worker_pool s 


struct Tom worker Gool | int pm 
*next 进程 管理 方式 : static, 


dynamic、ondemand 
struct fpm_scoreboard s P 


SE 
struct Tom child 空间 worker 数 
*children 
struct 
next procs[0] 


int active 
ae 忙碌 worker 数 
fpm_child_s fpm_scoreboard_proc $ 
va *procs[] 
fpm_child_s 
ne 














struct 
fpm_scoreboard_proc s 





procs[1] 


procs[n] struct 
fpm_scoreboard proc 5 


fpm_child_s 


(3)fpm_signals_init_main(): 


13 


static sint Sp EE 


int fpm_ signals_ init main() 


{ 
struct sigaction act; 
M N teg 
if (0 > socketpair(AF_UNIX, SOCK_STREAM, ©, sp)) { 
return a; 
} 
// 注 册 信 号 处 理 handler 
act.sa handler = sig_handler; 
sigfillset(&act.sa mask); 
if (O > sigaction(SIGTERM, &act, ©) |I| 
0 > sigaction(SIGINT, &act, 0) || 
© > sigaction(SIGUSR1, &act, 0) || 
© > sigaction(SIGUSR2, &act, 0) || 
© > sigaction(SIGCHLD, &act, 0) || 
© > sigaction(SIGQUIT, &act, 0)) { 
return -1; 
} 
engel ut 261 
} 


这 里 会 通过 socketpair() 创建 一 个 管道 ， 这 个 管道 并 不 是 用 于 master 与 worker 
进程 通信 的 ， 它 只 在 master 进 程 中 使 用 ， 具 体 用 途 在 稍 后 介绍 event 事 件 处 理 时 再 
作 说 明 。 另 外 设置 master 的 信号 处 理 handler， 当 master 收 到 SIGTERM ` SIGINT ` 
SIGUSR1、SIGUSR2、SIGCHLD、SIGQUIT 这 些 信号 时 将 调 
用 sig_handler() 处 理 : 


static void sig_handler(int signo) 


{ 
static const char sig_chars[NSIG + 1] = { 
[SIGTERM] = 'T', 
[SIGINT] = 'I', 
[SIGUSR1] = '1', 
[SIGUSR2] = '2', 
[SIGQUIT] = 'Q', 
[SIGCHLD] = 'C' 
}; 
Char s; 
s = sig_ o 
// 将 信号 通知 写 入 管道 Sp [1] 站 
write(sp[1], &s, GE 
} 


(4)fpm_sockets_init_main() 
创建 每 个 worker pool 的 socket 套 接 字 。 
(5)fpm_event_init main(): 


启动 master 的 事件 管理 ，fpm 实 现 了 一 个 事件 管理 器 用 于 管理 |O、 定 时 事件 ， 其 中 


IO 事 件 通 过 kqueue、epoll、poll、select 等 管理 ， 定 时 事件 就 是 定时 器 ， 一 定时 间 
后 触发 茶 个 事件 。 


在 fpm_init() 初始 化 完成 后 接 下 来 就 是 最 关键 的 fpm_run() 操作 了 ， 此 环节 将 
pa 程 ， 启 动 进程 管理 器 ， 另 外 master 进 程 将 不 会 再 返回 ， 只 有 各 Worker 进 程 
返回 ， 也 就 是 说 fpm_run() 之 后 的 操作 均 是 Worker 进 程 的 。 


int fpm run Int "max requests ) 


d 


struct fpm_worker_pool_s *wp; 
for (wp = fpm_worker_all_pools; wp; wp = wp->next) { 


// 调 用 fpm_children_make() fork 子 进程 


is_parent = fpm children Create initial(wp); 


if (!is_parent) { 
goto run_child; 


} 


PV eS 
ZNSE ANOV eME Va EE Dt 


fpm_event_ loop(0); 


run child: // 只 有 worker 进 程 会 到 这 里 


*max_requests = fpm globals.max_requests,; 


/ 全 


return fpm_globals.listening_socket; // 返 回 监听 的 套 接 字 


在 fork 后 worker 进 程 返回 了 监听 的 套 接 字 继 续 main() 后 面 的 处 理 ， 而 master 将 永远 
阻塞 在 fpm_event_loop() ， 接 下 来 分 别 介绍 master、Wworker 进 程 的 后 续 操作 。 


1.3.4 请 求 处 理 


fpm_run() 执行 后 将 fork 出 worker 进 程 ，worker 进 程 返回 main() 中 继续 向 下 执 
行 ， 后 面 的 流程 就 是 worker 进 程 不 断 accept 请 求 ， 然 后 执行 PHP 脚 本 并 返回 。 整 体 
流程 如 下 


(1) 等 待 请 求 : worker 进 程 阻塞 在 fcgi_ accept_ request() 等 待 请 求 ; 
(2) 解 析 请 求 : fastcgi 请 求 到 达 后 被 worker 接 收 ， 然 后 开始 接收 并 解析 请 求 数 
据 ， 直 到 request 数 据 完全 到 达 ; 

(3) 请 求 初始 化 : 执行 php_request_startup()， 此 阶段 会 调用 每 个 扩展 的 : 
PHP_RINIT_FUNCTION() ; 

(4) 编 译 、 执 行 : 由 php_execute _script() 完 成 PHP 脚 本 的 编译 、 执 行 : 
(5) 关 闭 请 求 : 请 求 完成 后 执行 php_request_shutdown()， 此 阶段 会 调用 每 个 
扩展 的 : PHP_RSHUTDOWN_FUNCTION()， 然 后 进入 步骤 (1) 等 待 下 一 个 请 


ine maam(nearge char lee VAN 


1 


fcgi fd = fpm_run(&max_requests); 
parent = 0; 


// 初 始 化 fastcgi 请 求 
request = Tom init_ request(fcgi fd); 


Zb KEE 
E- 274E = 

| 

AA TA 可 A 小 


E cy 


/ /worker ZS 4244 E EA 

while (EXPECTED(fcgi_accept_request(request) >= 0)) { 
SG(server_context) = (void *) request; 
init_request_info(); 


A E E ot Lë 
IT 有 


if (UNEXPECTED(php_request_startup() == FAILURE)) { 


fpm_request_executing(); 
// 编 译 、 执 行 PHP 脚 本 
php_execute_script(&file_handle); 


` 
e s+ BEALS 
U a Eë oe 


php_request_shutdown( (void *) 0); 


//Worker 进 程 退 出 
php_module_shutdown(); 


worker 进 程 一 次 请 求 的 处 理 被 划分 为 5 个 阶段 : 


e FPM_REQUEST_ACCEPTING: 等 待 请 求 阶段 


e FPM_REQUEST_READING_HEADERS: 读 取 fastcgi 请 求 header 阶 段 

e FPM_REQUEST_INFO: 获取 请 求 信 息 阶 段 ， 此 阶段 是 将 请 求 的 method、 
query stirng ` request uri 等 信息 保存 到 各 Worker 进 程 的 
fpm_scoreboard _ proc _s 结 构 中 ， 此 操作 需要 加 锁 ， 因 为 master 进 程 也 会 操作 

此 结构 

e FPM_REQUEST_EXECUTING: 执行 请 求 阶段 

。FPM_REQUEST_END: 没有 使 用 

。FPM_REQUEST_FINISHED: 请 求 处 理 完成 


Worker 处 理 到 各 个 阶段 时 将 会 把 当前 阶段 更 新 到 fpm_scoreboard_proc_s- 
>request_stage ，master 进 程 正 是 通过 这 个 标识 判断 worker 进 程 是 否 空 闲 的 。 


1.3.5 进程 管理 


这 一 节 我 们 来 看 下 master 是 如 何 管理 worker 进 程 的 ， 首 先 介 绍 下 三 种 不 同 的 进程 管 
理 方式 : 


e static: 这 种 方式 比较 简单 ， 在 启动 时 master 按 照 on max children 配置 fork 
出 相应 数量 的 worker 进 程 ， 即 worker 进 程 数 是 固定 不 变 的 
dynamic: 动态 进程 管理 ， 首 先 在 pm 启动 时 按照 on start servers 初始 化 
一 定数 量 的 worker， 运 行 期 间 如 果 master 发 现 空间 worker 数 低 
于 pm.min_spare_servers 配置 数 ( 表 示 请 求 比较 多 ，worker 处 理 不 过 来 了 ) 则 
会 fork worker 进 程 ， 但 总 的 worker 数 不 能 超过 pm.max_children ， 如 果 
master 发 现 空间 worker 数 超过 了 pm.max_spare_servers EE 
太 多 了 ) 则 会 杀 掉 一 些 worker， 避 免 占 用 过 多 资源 ，master 通 过 这 4 个 值 来 控制 
Worker 数 
。ondemand: 这 种 方式 一 般 很 少 用 ， 在 启动 时 不 分 配 Worker 进 程 ， 等 到 有 请 求 
了 后 再 通知 master 进 Worker 进 程 ， 总 的 worker 数 不 超 
过 pm.max_children ， 处 理 完 成 后 Worker 进 程 不 会 立即 退出 ， 当 空闲 时 间 超 
过 pm.process idle timeout 后 再 退出 


前 面 介 绍 到 在 fpm_run() master 进 程 将 进入 fpm_event_loop() 


void fpm_event_loop(int err) 


{ 

// 创 建 一 个 io _ read 的 监听 事件 ， 这 里 监听 的 就 是 在 fpm_init() 阶 段 中 通过 Soc 
ketpair( ) 创 建 管道 sp[0] 

// 当 sp[0] 可 读 时 将 回调 fpm_got_signal() 

Tom _ event_set(&signal fd event, Tom signals oer fd(), FPM_EV 
_READ, &fpm got_signal, NULL); 

fpm event add(&signal fd event, 0); 


// 如 果 在 php-fpm.conf 配 置 了 request_terminate_ timeout 则 启动 心跳 检查 


if (fpm_globals.heartbeat > 0) { 
fpm_pctl_heartbeat(NULL, ©, NULL); 


} 

// 定 时 触发 进程 管理 

fpm_pctl1 perform idle server maintenance heartbeat(NULL, 0, 
NULL); 


// 进 入 事件 循环 ，master 进 程 将 阻塞 在 此 
while (1) { 


// 等 待 I0 事 件 
ret = module->wait(fpm_event_queue_fd, timeout); 


// 检 查 定 时 器 事件 


这 就 是 master 整 体 的 处 理 ， 其 进程 管理 主要 依赖 注册 的 几 个 事件 ， 接 下 来 我 们 详细 
分 析 下 这 几 个 事件 的 功能 。 


(1)sp[1] 管 道 可 读 事件 : 


在 fpm_init() 阶段 master 曾 创建 了 一 个 全 双 工 的 管道 : sp， 然 后 在 这 里 创建 了 
一 个 sp[0] 可 读 的 事件 ， 当 sp[0] 可 读 时 将 交 由 fpm_got_signal() 处 理 ， 向 sp[1] 写 
数据 时 sp[0] 才 会 可 读 ， 那 么 什么 时 机 会 向 sp[ 们 写 数据 呢 ? 前 面 已 经 提 到 了 : 当 
master 收 到 注册 的 那 几 种 信号 时 会 写 入 sp[1] 端 这 个 时 候 将 触发 sp[0] 可 读 事 件 。 


E Er 





kill -XXX pid 


write 一 | sp[1] socketpair() sploj 8 
\ Vi 
FPM_EV_READ 





这 个 事件 是 master 用 于 处 理 信号 的 ， 我 们 根据 master 注 册 的 信号 逐个 看 下 不 同 用 


SIGINT/SIGTERM/SIGQUIT: 退出 fpm， 在 master 收 到 退出 信号 后 将 向 所 有 的 
Worker 进 程 发 送 退 出 信号 ， 然 后 master 退 出 

SIGUSR1: 重新 加 载 日 志文 件 ， 生 产 环境 中 通常 会 对 日 志 进 行 切割 ， 切 割 后 会 
生成 一 个 新 的 日 志文 件 ， 如 果 fpm 不 EE 日 志 ， 这 个 时 候 
就 需要 向 master 发 送 一 个 USR1 的 信号 

SIGUSR2: 重启 fpm， 首 先 master 也 是 会 向 所 有 的 worker 进 程 发 送 退 出 信号 ， 
然后 master 会 调用 execvp() 重 新 启动 fpm ， A g e master 退 出 

SIGCHLD: 这 个 信号 是 子 进 程 退 出 时 操作 系统 发 SE 程 的 ， 子 进程 退出 
时 ， 内 核 将 子 进程 置 GER 进程 称 为 僵尸 进程 ， 它 只 保留 最 小 的 一 
些 内 核 数 据 结 构 ， 以 便 父 进程 查询 子 进程 的 退出 状态 ， Eer 
X, # waitpid $ A 程 才 告 终止 ，fpm 中 当 worker 进 程 
因为 异常 原 EE 了 ) 退 出 而 非 master 主 动 杀 掉 时 master 将 受到 此 信 
号 ， 这 个 时 候 父 进程 将 调用 waitpid() 查 下 子 进程 的 退出 ， 然 后 检查 下 是 不 是 需 
要 重新 fork 新 的 worker 


KASS fpm_got_signal() 区 数 中 ， 这 里 不 再 罗列 。 


(2)fpm_pctl_perform_idle_server_maintenance_heartbeat(): 


这 是 进程 管理 实现 的 主要 事件 ，master 启 动 了 一 个 定时 器 ， 每 隔 1s 触 发 一 次 ， 主 要 
用 于 dynamic、 eae nan ，master 会 定时 检查 各 worker pool 
的 Worker 进 程 数 ， 通 过 此 定时 器 实现 worker 数 量 的 控制 ， 处 理 逻 辑 如 下 : 


static void fpm pct] perform idle server maintenance(struct time 
val *now) 


1 


for (wp = fpm_worker all pools; wp; wp = wp->next) { 
struct fpm_child s *last idle child = NULL; // Z AH HKA 


的 NOrker 


int idle = ©; //ÈMworkerž 
int active = 0; //łèčēkworker% 


for (child = wp->children; child; child = child->next) { 
// 根 据 worker 进 程 的 fpm_scoreboard_proc_s->request_stage 


if (fpm request is idle(child)) { 
// 找 空闲 时 间 最 和 久 的 worker 


idle++; 
}else{ 
active++; 
} 
} 
/Vondemand 模 式 


if (wp->config->pm == PM_STYLE_ONDEMAND) { 
if (!last_idle_child) continue; 


fpm_request_last_activity(last_idle_child, &last); 
fpm_clock_get(&now); 
if (last.tv_sec < now.tv_sec - wp->config->pm_proces 
s_idle_timeout) { 
// 如 果 空 闲 时 间 最 长 的 worker 空 用 时 间 超过 了 process_idle_ 
timeout 则 杀 掉 该 worker 
last_idle_child->idle_kill = 1; 
fpm_pctl_kill(last_idle_child->pid, FPM_PCTL_QUI 


T); 
} 
continue; 
} 
//dynamic 


if (wp->config->pm != PM_STYLE_DYNAMIC) continue; 
if (idle > wp->config->pm_max_spare_servers && last_ idle 
_child) { 

//ž worker ź f > %4 
last_idle_child->idle_kill = 1; 
fpm_pctl_kill(last_idle_child->pid, FPM_PCTL_QUIT); 
wp->idle_spawn_rate = 1; 
continue; 


} 
IF a < wp->config->pm_min Se SE { 


//% worker 


ho Si o: t sb g -Ml z SS 
闲 Worker 太 少 了 ， 如 果 总 wo er 数 未 达到 max 数 则 fork 


(3)fpm_pctl_heartbeat(): 


这 个 事件 是 用 于 限制 worker 处 理 单 个 请 求 最 大 耗 时 的 ，php-fpm.conf 中 有 一 

个 request_terminate_timeout 的 配置 项 ， 如 果 worker 处 理 一 个 请 求 的 总 时 长 超 
过 了 这 个 值 那么 master 将 会 向 此 worker 进 程 发 送 kill -TERM 信号 杀 掉 worker 进 
程 ， 此 配置 单位 为 种， 默认 值 为 0 表示 关闭 此 机 制 ， 另 外 fpm 打 印 的 slow log 也 是 在 
这 里 完成 的 。 


static void fpm pctl] check request timeout(struct timeval *now) 


{ 


struct fpm_worker_pool_s *wp; 


for (wp = fpm_worker_all_pools; wp; wp = wp->next) { 
int terminate_timeout = wp->config->request_terminate_ti 


meout; 
int slowlog_timeout = wp->config->request_slowlog_timeou 
t; 
struct fpm_child_s *child; 
if (terminate_timeout || slowlog_timeout) { 
for (child = wp->children; child; child = child->nex 
t) { 


Lë a Jk är ba sE én CS E H AA gA 
// 3È Za D awor kerat 3E agt Ra i Re 


fpm_request_check_timed_out(child, now, terminat 
e_timeout, slowlog_timeout); 


} 


除了 上 面 这 几 个 事件 外 还 有 一 个 没有 提 到 ， 那 就 是 ondemand 模 式 下 master 监 听 的 
新 请 求 到 达 的 事件 ， 因 为 ondemand 模 式 下 fpm 启 动 时 是 不 会 预 创建 Worker 的 ， 有 请 
求 时 才 会 生成 子 进程 ， 所 以 请 求 到 达 时 需要 通知 master 进 程 ， 这 个 事件 是 

在 rom children create initial() 时 注册 的 ， 事 件 处 理 函 数 

为 fpm_pct1_on_socket_accept() ， 具 体 逻 辑 这 里 不 再 展开 ， 上 比较 容易 理解 。 


到 目前 为 止 我 们 已 经 把 pm 的 核心 实现 介绍 完了 ， 事 实 上 fpm 的 实现 还 是 比较 简单 
的 。 


1.2 执行 流程 


PHP 的 生命 周期 : 


1.4 PHP 执 行 的 几 个 阶段 


A main 
SAPI 


二 php_module_startup() 





二 php_request_startup() 





Gi php_request_shutdown() 





php_module_shutdown0 








zend_register_xx_constant() 
注册 常量 到 EG(zend_constants) 








REGISTER_INI ENTRIES0 
zend_register_standard_ini_entries() 
注册 PHP 核 心 in 配置 及 zend ini 变 量 到 EG(ini_directives) 











注册 GET、_POST、_COOKIE、_SERVER、_ENV、_REQUEST、_FILES 全 ， 


php_startup_auto_globals() 
局 变量 的 处 理 handler 到 CG(auto_globals) 











-村 





php_register_internal_extensions() SS 


zend_register_internal_module() | 





php_register_extensions() 





er_module_ex() 





注册 静态 编译 的 内 部 核心 扩展 : date, hash, libxml, ctype‘ filter, 
standard 等 2 











|_| zend-register_ functions0 


| 








|_| php_register_extensions_bc() a Sat 





注册 其 它 静 态 编译 的 扩展 








ka E EE php_load_extension(.../xx.s0,...) | 














zend_startup_modules() 

调用 各 PHP 扩 展 (zend module) 的 PHP_MINTO 
zend_startup_extensions() 

调用 各 zend 扩 展 的 startup 


-| zend_post_startup() 


gc_reset() 


|_| init compiler0 
初始 化 编译 器 


init_executor() 
初始 化 EG : 
EG(function_table) = CG(function_table); 





一 zend_activate() EG(class_table) = CG(class_table); 


—| EG(autoload_func) 
初始 化 全 局 符号 表 EG(symbol_table) 
初始 化 included file 数 组 EG(included_files) 











_| startup_scanner() 
初始 化 词法 分 析 器 





_ | php_calLshutdown_functions0 
依次 调用 通过 register_shutdown_function() 注 册 的 钩子 函数 





注册 扩展 提供 的 内 部 函数 及 类 方法 到 CG 








shutdown_destructors() 
| zend_call_destructors() 清理 EG(symbol_table)， 如 果 变 量 有 析 构 函数 则 调用 ， 如 资源 类 型 ( 文件 
句柄 、socket 连 接 等 ) ， 此 刻 将 进行 最 后 的 清理 





Php_output_discard_all0 
— php_output_end_all0 
将 所 有 输出 flush 


ules0 
DOWN 函 数 


php_output_deactivate() 
关闭 output ,发 送 http 应 答 header 头 ， 清 理 output handlers 


|_| php_free_shutdown_functions0 
释放 register_shutdown_function 函 数 


zend_post_deactivate_modules() 
销毁 全 局 变量 PG(http_globals) 


shutdown_scanner0 
shutdown_executor0 
zend_ini_deactivate() 
shutdown_compiler0 
关闭 编译 器 、 执 行 器 等 
zend_post_deactivate_modules() 

调用 各 扩展 的 post_deactivate_func( 多 数 扩 展 没有 设置 这 个 钩子 ) 


shutdown_memory_manager() 
关闭 内 存 管理 器 
_| sapiflush0 

调用 sapi.flush 



















































zend_destroy_rsrc_list(&EG(persistent_list)) 
清理 持久 化 符号 表 


zend_destroy_modules0 
清理 module_registry HashTable 























—| zend_shutdown() 





module_destructor() 

调用 各 扩展 的 MSHUTDOWN 
清理 扩展 globals 

注销 扩展 提供 的 函数 


| UNREGISTER_INI_ENTRIES() 
清理 ini HashTable 元 素 


_| zend_ini_global_shutdown() 
#%EG(ini_directives) 


_| php_output_shutdown0 
关闭 output 











_ | core_globals_dtor0 
释放 PG 
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1.2.1 模块 初始 化 阶段 
1.2.2 请 求 初 始 化 阶段 
1.2.3 执行 PHP 脚 本 阶段 
1.2.4 请 求 结束 阶段 


1.2.5 模块 关闭 阶段 


2.1 变量 的 内 部 实现 


变量 是 一 个 语言 实现 的 基础 ， 变 量 有 两 个 组 成 部 分 : 


变量 名 、 变 量 值 ，PHP 中 可 以 


将 其 对 应 为 : zval、zend_value， 这 两 个 概念 一 定 要 区 分 开 ，PHP 中 变量 的 内 存 是 
通过 引用 计数 进行 管理 的 ， 而 且 PHP7 中 引用 计数 是 在 zend_value 而 不 是 zval 上 ， 
变量 之 间 的 传递 、 赋 值 通常 也 是 针对 zend_value。 


PHP 中 可 以 通过 $ 关键 词 定义 一 个 变量 : 


， 注意 这 实际 是 两 步 : 定义 、 初 始 化 ， 只 定义 一 个 变量 也 是 可 


化 : $a 三 "hi~"; 
VLAJ o TARCE : HA 


这 段 代码 在 执行 时 会 分 配 两 个 zval 。 


$a; ， 在 定义 的 同时 可 以 进行 初始 


接 下 来 我 们 具体 看 下 变量 的 结构 以 及 不 同类 型 的 实现 。 


` 


2.1.1 变量 的 基础 结构 


/Z/zend Cvpes h 
typedef struct _zval_struct 


typedef union _zend_value { 


zend_long lval; 
double dval; 
zend_refcounted *counted; 
zend_string SET 
zend_array *arr; 
zend_object *obj; 
zend_resource "res: 
zend_reference "ref: 
zend_ast_ref *ast; 
zval SIAVE 
void Ee 
Zend Class entrv *ce; 


zval; 


YY TE E 


ce E ai 
E 


//stringž HS 
/Varray 数 组 
/V/object 对 象 


//resource 资 源 类 型 





// 引 用 类 型 ， 通 过 &$var_name 定 义 的 


EE 
// 下 男 几 个 者 






是 内 核 使 用 的 Value 


zend function *func ， 
StrucCr RE 
Us 2 wl 
uint32_t w2; 
} w; 
} zend_value; 


struct _zval_struct { 
zend_value value; // 变 量 实际 的 Value 
union { 
Struct 
ZEND_ENDIAN_LOHI_4( // 这 个 是 为 了 兼容 大 小 字 节 序 ， 小 字 节 序 就 
是 下 面 的 顺序 ， 大 字 节 序 则 下 面 4 个 顺序 翻转 
zend_uchar type, MAE ER ZS 
zend_uchar type_flags, // 类 型 掩 码 ， 不 同 的 类 型 会 
有 不 同 的 几 种 属性 ， 内 存 管理 会 用 到 
zend_uchar const_flags, 
zend_uchar reserved) //call info，zend 执 行 
流程 会 用 到 
} v; 
uint32_t type_info; // 上 面 4 个 值 的 组 合 值 ， 可 以 直接 根据 type_inf 
0 取 到 4 个 对 应 位 置 的 值 


} ut; 
union { 
VTS E var_flags; 
EIER: next; // 哈 希 表 中 解决 哈 希 冲突 时 
用 到 
HEWER Cache slort: /* literal cache slot 
Zë 
imes 2st lineno; / Line number (fora 
st nodes) */ 
WICH num_args; /* arguments number f 
ONTEX (INIS) 
uimto2st fe_pos; A Toreach position Z/ 
NEES fe_iter_idx; /* foreach iterator i 
ndex */ 
} u2; // 一 些 辅助 值 
}; 


| 
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zval 结构 比较 简单 ， 内 葡 一 个 union 类 型 的 zend value 保存 具体 变量 类 型 的 值 
或 指针 ， zval 中 还 有 两 个 union : ul 、u2 : 


e U1 : 它 的 意义 比较 直观 ， 变 量 的 类 型 就 通过 ul1.v,type 区 分 ， 另 外 一 个 
值 type_flags 为 类 型 掩 码 ， 在 变量 的 内 存 管 理 、gc 机 制 中 会 用 到 ， 第 三 部 
分 会 详细 分 析 ， 至 于 后 面 两 个 const_flags ` reserved 暂且 不 管 

e U2 : 这 个 值 纯粹 是 个 辅助 值 ， 假 如 zval RA: value ` ul 两 个 值 ， 整个 
ZVal 的 大 小 也 会 对 齐 到 16byte， 既 然 不 管 有 没有 u2 大 小 都 是 16byte， 把 多 余 的 
4byte 拿 出 来 用 于 一 些 特 殊 用 途 还 是 很 划算 的 ， 比 如 next 在 哈 希 表 解 决 哈 硕 冲 突 
时 会 用 到 ， 还 有 fe_pos 在 foreach 会 用 到 .…… 


从 zend_value 可 以 看 出 ， 除 long ` double 类 型 直接 存储 值 外 ， 其 它 类 型 都 
为 指针 ， 指 向 各 自 的 结构 。 


2.1.2 类 型 


zval.u1.type 类 型 : 


egular data types 


#define IS_UNDEF 


0 
#define IS_NULL ai 
#define IS_FALSE 2 
#define IS_TRUE 3 
#define IS_LONG 4 
#define IS_DOUBLE 5 
#define IS_STRING 6 
#define IS_ARRAY H 
#define IS_OBJECT 8 
#define IS_RESOURCE 9 
#define IS_REFERENCE 10 
/ :oNstant expressions 
#define IS_CONSTANT LI 
#define IS CONSTANT AGT 12 

fake types 
#define _IS_BOOL 13 
#define IS_CALLABLE 14 
internal types *, 

#define IS_INDIRECT 15 
#define IS_PTR ar 


2.1.2.1 标量 类 型 


最 简单 的 类 型 是 true、false、long、double、null， 其 中 true、false、null 没 有 
Value， 直 接 根 据 type 区 分 ， 而 long、double 的 值 则 直接 存在 value 中 : zend ong: 
double， 也 就 是 标量 类 型 不 需要 额外 的 value 指 针 。 


2.1.2.2 字符 串 


PHP 中 字符 串通 过 zend_string 表示 : 


struct _zend_string { 
zend_refcounted_h gc; 


zend_ulong h; /* hash value */ 
size_t len; 
char val[1]; 


}; 


e gc: 变量 引用 信息 ， 比 如 当前 value 的 引用 数 ， 所 有 用 到 引用 计数 的 变量 类 型 
都 会 有 这 个 结构 ，3.1 节 会 详细 分 析 

e h: 哈 布 值 ， 数 组 中 计算 索引 时 会 用 到 

e len: 字符 串 长 度 ， 通 过 这 个 值 保证 二 进 制 安 全 

e val: 字符 串 内 容 ， 变 长 struct， 分 配 时 按 len 长 度 申请 内 存 


事实 上 字符 串 又 可 具体 分 为 几 类 : IS_STR_PERSISTENT( 通 过 malloc 分 配 的 )、 
IS_STR_INTERNED(php 代 码 里 写 的 一 些 字面 量 ， 比 如 函数 名 、 变 量 值 )、 
IS_STR_PERMANENT( 永 久 值 ， 生 命 M IS_STR_CONSTANT( 常 
量 )、IS_STR_CONSTANT_UNQUALIFIED， 这 个 信息 通过 flag 保 存 : zval.value- 
>gc.u.flags， 后 面 用 到 的 时 候 再 具体 分 析 。 


2.1.2.3 数组 


array 是 PHP 中 非常 强大 的 一 个 数据 结构 ， 它 的 底层 实现 就 是 普通 的 有 序 
HashTable， 这 里 简单 看 下 它 的 结构 ， -o ved 


typedef struct _zend_array HashTable; 


struct _zend_array { 


zend_refcounted_h gc; // 引 用 计数 信息 ， 与 字符 串 相 同 


union { 
SErúct H 
ZEND_ENDIAN_LOHI_4( 
zend_uchar flags, 
zend_uchar nApplyCount, 
zend_uchar nIteratorsCount, 
zend_uchar reserve) 
} v; 
uint32_t flags; 
Lu: 
HOPE SE nTableMask; // 计 算 bucket 索 引 时 的 括 码 
Bucket *arData; //bucket 数 组 
DEES 2AE nNumUsed; // 已 用 bucket 数 
uint32_t nNumOfElements; // 已 有 元 素数 ，nNum0fElements 
<= nNumUsed， 因 为 删除 的 并 不 是 直接 从 arData 中 移 除 
Date nTableSize; // 数 组 的 大 小 ， 为 2An 
EIER ninternalbointer: // 数 值 索 引 
zend_long nNextFreeElement; 
dtor Fun E pDestructor; 


(éi 


2.1.2.4 SIb 


struct _zend object { 
zend_refcounted_h gc; 


uint32_t handle; 

zend_class_entry *ce; //3t %3} = class ž 
const zend_object_handlers *handlers; 
HashTable *properties; // 对 象 属性 哈 布 表 
zval properties_table[1]; 


(éi 


struct zend resource { 
zend_refcounted_h gc; 


IME handle; 
TUME type; 
void ptr; 


A 


对 象 比 较 常 见 ， 资 源 指 的 是 tcp 连 接 、 文 件 句柄 等 等 类 型 ， 这 种 类 型 比较 灵活 ， 可 以 
随意 定义 struct， 通 过 ptr 指 向 ， 后 面 会 单独 分 析 这 种 类 型 ， 这 里 不 再 多 说 。 


2.1.2.5 引用 


引用 是 PHP 中 比较 特殊 的 一 种 类 型 ， 它 实际 是 指向 另外 一 个 PHP 变 量 ， 对 它 的 修改 
会 直接 改动 实际 指向 的 zval， 可 以 简单 的 理解 为 C 中 的 指针 ， 在 PHP 中 通过 & 操作 
符 产生 一 个 引用 变量 ， 也 就 是 说 不 管 以 前 的 类 型 是 什么 ，& 首先 会 创建 一 

个 zend_reference 结构 ， 其 内 内 了 一 个 zval， 这 个 zval 的 value 指 向 原来 zval 的 
value( 如 果 是 布尔 、 整 形 、 浮 点 则 直接 复制 原来 的 值 )， 然 后 将 原 zval 的 类 型 修改 为 
IS_REFERENCE， 原 zval 的 value 指 向 新 创建 的 zend_reference 结构 。 


struct _zend_reference / 
zend_refcounted_h gC; 
zval val; 


A 


结构 非常 简单 ， 除 了 公共 部 分 zend retcounted bh 外 只 有 一 个 val ， 举 个 示例 
看 下 具体 的 结构 关系 : 


2.1 变量 的 内 部 实现 
$a = "time:" . time(); //$a -> zend_string_1(refcount=1) 
$b = &$a; //$a,$b -> zend_reference_1(refcount 


=2) -> zend_string_1(refcount=1) 







zend_reference 





zend_string 


[ “time:1409090 | 
9090” 





$a = "time:" . time(); //$a ~ zend string I(rercount 1) 
$b = &$a; //$a,$b -> zend_reference_1(refcount 
=2) -> zend_string_1(refcount=1) 
$c = $b; //$a,$b -> zend_reference_1(refcount 
=2) -> zend_string_1(refcount=2) 

//$c SE 


$b = &$a 这 时 候 $a ` $b 的 类 型 是 引用 ， 但 是 $c = $b 并 不 会 直接 
将 $b 赋值 给 $c ， 而 是 把 $b 实际 指向 的 Zzval 赋 值 给 $c ， 如 果 想 要 $c 也 是 
一 个 引用 则 需要 这 么 操作 : 


$a = "time:" . time(); //$a -> Zend string 1(refcount 
St? 

$b = &$a; //$a, $b -> zend_reference_1(refco 
unt=2) -> zend_string_1(refcount=1) 

$c = &$b;/* 或 $C = &$a*/ //$a,$b,$c -> zend_reference_1(refco 


unt=3) -> zend_string_1(refcount=1) 


这 个 也 表示 PHP 中 的 引用 只 可 能 有 一 层 ， 不 会 出 现 一 个 引用 指向 另外 一 个 引用 的 
情况 ， 也 就 是 没有 C 语 言 中 指针 的 指针 的 概念 。 
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2.1.3 内 存 管 理 
接 下 来 分 析 下 变量 的 分 配 、 销 毁 。 


在 分 析 变 量 内 存 管理 之 前 我 们 先 自己 想 一 下 可 能 的 实现 方案 ， 最 简单 的 处 理 方式 : 
定义 变量 时 alloc 一 个 Zval 及 对 应 的 value 结 构 (ref/arr/str/res...)， 赋 值 、 兄 数 传 参 时 

硬 拷 贝 一 个 副本 ， 这 样 各 变量 最 终 的 值 完全 都 是 独立 的 ， 不 会 出 现 多 个 变量 同时 共 
用 一 个 value 的 情况 ， 在 执行 完 以 后 直接 将 各 变量 及 value 结 构 free 掉 。 


这 种 方式 是 可 行 的 ， 而 且 内 存 管 理 也 很 简单 ， 但 是 ， 硬 拷贝 带 来 的 一 个 问题 是 效率 
低 ， 比 如 我 们 定义 了 一 个 变量 然后 赋值 给 另外 一 个 变量 ， 可 能 后 面 都 只 是 只 读 操 
作 ， 假 如 硬 拷 贝 的 话 就 会 有 多 余 的 一 份 数据 ， 这 个 问题 的 解决 方案 是 : 引用 计数 
+ 写 时 复制 。PHP 变 量 的 管理 正 是 基于 这 两 点 实现 的 。 


2.1.3.1 引用 计数 


引用 计数 是 指 在 value 中 增加 一 个 字段 refcount 记录 指向 当前 value 的 数量 ， 变 量 
复制 、 函 数 传 参 时 并 不 直接 硬 拷贝 一 份 value 数 据 ， 而 是 将 refcount++ ， 变 量 销 
毁 时 将 refcount-- ， 等 到 refcount 减 为 0 时 表示 已 经 没有 变量 引用 这 个 
value， 将 它 销毁 即 可 。 





$a = "time:" ， time(); //$a zs Zend string Lirefcountzt 
$b = $a; //$a, $b -> zend_string_1(refcount=2) 
$c = $b; //$a,$b,$c -> zend_string_1(refcount=3) 
unset($b); //$b = TS_UNDEF $a,$c -> zend string_ 


1(refcount=2) 
E O 


引用 计数 的 信息 位 于 给 具体 value 结 构 的 gc 中 : 


typedef struct _zend_refcounted h { 


Bet ek refcount; /* reference counter 32- 
oau =y 
union { 
struct A 
ZEND_ENDIAN_LOHI_3( 
zend_uchar type, 
zend_uchar flags, /* used for strings & ob 
jects "4 
Vaine E gc_info) /* keeps GC root number 
(or ©) and color */ 
} v; 
uint32_t type_info; 
Lu 


} zend rercounted bh: 


从 上 面 的 zendvalue 结 构 可 以 看 出 并 不 是 所 有 的 数据 类 型 都 会 用 到 引用 计 
数 ， long ` double 直接 都 是 硬 拷贝， 只 有 value 是 指针 的 那 几 种 类 型 才 可 能 
会 用 到 引用 计数 。 


下 面 再 看 一 个 例子 : 
$a 二 elt EE 
$b = $a; 


青 测 一 下 变量 $a/$b 的 引用 情况 。 


这 个 不 跟 上 面 的 例子 一 样 吗 ? 字符 串 "hi~" 有 $a/$b 两 个 引用 ， 所 
以 zend_string1(refcount=2) 。 但 是 这 是 错 的 ，gdb 调 试 发 现 上 面 例子 
zend_string 的 引用 计数 为 0。 这 是 为 什么 呢 ? 


Za, $b -> zend string 1(refcount=0,val="hi~") 


事实 上 并 不 是 所 有 的 PHP 变 量 都 会 用 到 引用 计数 ， 标 量 : 
true/false/double/long/null 是 硬 拷 贝 自然 不 需要 这 种 机 制 ， 但 是 除了 这 几 个 还 有 两 个 
特殊 的 类 型 也 不 会 用 到 : interned string( 内 部 字符 串 ， 就 是 上 面 提 到 的 字符 串 flag : 
IS_STR_INTERNED)、immutable array， 它 们 的 type 


日 


是 IS_STRING ` IS_ARRAY ， 与 普通 string、array 类 型 相同 ， 那 怎么 区 分 一 个 
Value 是 否 Pr E zval.ul 中 那个 类 型 掩 码 type_flag Se 
是 通过 这 个 字段 标识 的 ， 这 个 字段 除了 标识 value 是 否 支 持 引 用 计数 外 还 有 其 
标识 位 ， 按 位 分 割 ， 注 意 : type_flag 5 zval.value->gc.u.flag Se 


支持 引用 计数 的 value 类 型 其 zval.ul.type_flag 包含 (注意 是 &， 不 是 等 
于 ) IS_TYPE_REFCOUNTED 


#define IS_TYPE_REFCOUNTED (1<<2 ) 


下 面具 体 列 下 哪些 类 型 会 有 这 个 标识 : 


| type | refcounted | 
dEr d'Bee 十 
|simple types | | 
|string | Y | 
|interned string | | 
|array | Y | 
|immutable array | | 
|object | Y | 
| resource | M | 
|reference | Y | 


simple types 很 显然 用 不 到 ， 不 再 解释 ，string、array、object、resource、 
reference 有 引用 计数 机 制 也 很 容易 理解 ， 下 面具 体 解 释 下 另外 两 个 特殊 的 类 型 : 


e interned string ` 内 部 字符 串 ， 这 是 种 什么 类 型 ? 我 们 在 PHP 中 写 的 所 有 字符 
都 可 以 认为 是 这 种 类 型 ， 比 如 function name ` class name ` variable name ` 
静态 字符 串 等 等 ， 我 们 这 样 定义 : $a = "hi~"， 后 面 的 字符 串 内 容 是 唯一 不 变 
的 ， 这 些 字符 串 等 同 于 C 语 言 中 定义 在 静态 变量 区 的 字符 串 : char *a = 
"hi~"; ， 这 些 字符 串 的 生命 Deen H: request zg Ei 4h Sk 
释放 ， 自 然 也 就 无 需 在 运行 期 间 通 过 引用 计数 管理 内 存 。 


e immutable array ` 只 有 在 用 opcache 的 时 候 才 会 用 到 这 种 类 型 ， 不 清楚 具体 
实现 ， 暂 时 忽略 。 


2.1.3.2 写 时 复制 


上 一 小 节 介 绍 了 引用 计数 ， 多 个 变量 可 能 指向 同一 个 value， 然 后 通过 refcount 统 计 
引用 数 ， 这 时 候 如 果 其 中 一 个 变量 试图 更 改 value 的 内 容 则 会 重新 拷贝 一 份 value 修 
改 ， 同 时 断 开 昌 的 指向 ， 写 时 复制 的 机 制 在 计算 机 系统 中 有 非常 广 的 应 用 ， 它 只 有 
在 必要 的 时 候 ( 写 ) 才 会 发 生硬 拷贝 ， 可 以 很 好 的 提高 效率 ， 下 面 从 示例 看 下 : 


$a = array(1,2); 


$b = &$a; 
$c = $a; 


最 终 的 结果 : 
















zend_reference 






zend_array 














<?php 
$a = array(1,2); 
£ r 
-n 
SEN 
$c = $a; 
zend_reference zend_array 
$b[] SEI 上 一 duplication 
zend_array 
se 





不 是 所 有 类 型 都 可 以 copy 的 ， 比 如 对 象 、 资 源 ， 实 时 上 只 有 string、array 两 种 支 
持 ， 与 引用 计数 相同 ， 也 是 通过 zval.ul,type_flag 标识 value 是 否 可 复制 的 : 


#define IS_TYPE_COPYABLE (1<<4) 


copyable | 
|simple types 


| 

十 

| 
|string | Y 

|interned string | 

|array | 

|immutable array | 

|object | 

| resource | 

| 


|reference 


copyable 的 意思 是 当 value 发 生 duplication 时 是 否 需要 或 者 能 够 copy， 这 个 具体 有 
两 种 情形 下 会 发 生 : 


e al literal 变 量 区 复制 到 局 部 变量 区 ， 比 如 : $a = []; 实际 会 有 两 个 数 
组 ， 而 $a = "hi-";//interned string 则 只 有 一 个 string 

e b. 局 部 变量 区 分 离 时 ( 写 时 复制 ) : 如 改变 变量 内 容 时 引用 计数 大 于 1 则 需要 分 
离 ， $a = [];$b = $a; $b[] = 1; 这 里 会 分 离 ， E ee 
制 ， 如 果 是 对 象 : $a = new user;$b = $a;$a->name = "dd"; 这 种 情况 是 
不 会 复制 object 的 ，$a、$b 指 向 的 对 象 还 是 同一 个 


具体 literal、 局 部 变量 区 变量 的 初始 化 、 赋 值 后 面 编译 、 执 行 两 篇 文章 会 具体 分 析 ， 
这 里 知道 变量 有 个 copyable 的 属性 就 行 了 。 


2.1.3.3 变量 回收 


PHP 变 量 的 回收 主要 有 两 种 : 主动 销毁 、 自 动 销 毁 。 主 动 销毁 指 的 就 是 Unset ， 而 
自动 销毁 就 是 PHP 的 自动 管理 机 制 ， 在 return 时 减 掉 局 部 变量 的 refcount， 即 使 没有 
显 式 的 return，PHP 也 会 自动 给 加 上 这 个 操作 ， 另 外 一 个 就 是 写 时 复制 时 会 断 开 原 
来 Value 的 指向 ， 这 时 候 也 会 检查 断 开 后 旧 value 的 refcount。 


2.1.3.4 垃圾 回收 


PHP 变 量 的 回收 是 根据 refcount 实 现 的 ， 当 unset、return 时 会 将 变量 的 引用 计数 减 
掉 ， 如 果 refcount 减 到 0 则 直接 释放 value， 这 是 变量 的 简单 gc 过 程 ， 但 是 实际 过 程 
中 出 现 gc 无 法 回收 导致 内 存 泄漏 的 buUg， 先 看 下 一 个 例子 : 


$a = [1]; 
$a[] = &$a; 


unset($a); 


unset ($a) 之 前 引用 关系 : 


zend_reference 


zend_array 


c.refcount=2 


val.value.arr 





unset($a) ZE: 


zend_reference 
var_stack 四 zend_array 圾 


c.refcount=1 
EEEE] 


val.value.arr 





可 以 看 到 ， unset($a) 之 后 由 于 数组 中 有 子 元 素 指 向 $a ， 所 以 refcount > 
9 ， 无 法 通过 简单 的 gc 机 制 回收 ， 这 种 变量 就 是 垃圾 ， 垃 圾 回收 器 要 处 理 的 就 是 这 
种 情况 ， 目 前 垃圾 只 会 出 现在 array、object 两 种 类 型 中 ， 所 以 只 会 针对 这 两 种 情况 
作 特 殊 处 理 : 当 销 毁 一 个 变量 时 ， 如 果 发 现 减 掉 refcount 后 仍然 大 于 0， 且 类 型 是 
IS_ARRAY 、IS_OBJECT 则 将 此 value 放 入 gc 可 能 垃圾 双向 链表 中 ， 等 这 个 链表 达 
到 一 定数 量 后 启动 检查 程序 将 所 有 变量 检查 一 遍 ， 如 果 确 定 是 垃圾 则 销毁 释放 。 


Ki 


标识 变量 是 否 需要 回收 也 是 通过 ul,type_flag 区 分 的 : 


#define IS_TYPE_COLLECTABLE 


| type | collectable | 


|simple types 
|string 
|interned string 
|array 
|immutable array 
|object 

| resource 

| reference 


2.2 数组 


数组 是 PHP 中 非常 强大 、 灵 活 的 一 种 数据 类 型 ， 它 的 底层 实现 为 散 列 表 
(HashTable， 也 称 作 : 哈 希 表 )， 除 了 我 们 熟悉 的 PHP 用 户 空间 的 Array 类 型 之 外 ， 
内 核 中 也 随处 用 到 散 列 表 ， 比 如 函数 、 类 、 常 量 、 己 include 文件 的 索引 表 、 全 局 符 
号 表 等 都 用 的 HashTable 存 储 。 


散 列表 是 根据 关键 码 值 (Key value) 而 直接 进行 访问 的 数据 结构 ， 它 的 key - value 之 
间 存 在 一 个 映射 函数 ， 可 以 根据 key 通 过 映射 函数 直接 索引 到 对 应 的 value 值 ， 它 不 
以 关键 字 的 比较 为 基本 操作 ， 采 用 直接 寻 址 技术 (就 是 说 ， 它 是 直接 通过 key 映 射 
到 内 存 地 址 上 去 的 ) ， 从 而 加 快 查找 速度 ， 在 理想 情况 下 ， 无 须 任 何 比较 就 可 以 找 
到 待 查 关键 字 ， 查 找 的 期 望 时 间 为 O(1)。 


2.2.1 数组 结构 


存放 记录 的 数组 称 做 散 列 表 ， 这 个 数组 用 来 存储 value， 而 value 具 体 在 数组 中 的 在 
储 位 置 由 映射 函数 根据 key 计 算 确 定 ， 映 射 函数 可 以 采用 取 模 的 方式 ，Kkey 可 以 通过 
一 些 壁 如 “times 33” 的 算法 得 到 一 个 整形 值 ， 然 后 与 数组 总 大 小 取 模 得 到 在 散 列 表 
中 的 存储 位 置 。 这 是 一 个 普通 散 列 表 的 实现 ，PHP 散 列表 的 实现 整体 也 是 这 个 思 
路 ， 只 是 有 几 个 特殊 的 地 方 ， 下 面 就 是 PHP 中 HashTable 的 数据 结构 : 


//Bucket : 散 列 表 中 存储 的 元 素 
typedef struct _Bucket / 

zval val; // ġiti Hvalue: AERA T—^Azval’ e 
不 是 一 个 指针 

zend_ulong h;  ”//key 根 据 tijmes 33 计 算得 到 的 哈 希 值 ， 或 者 是 
数值 索引 编号 

zend_string *key; // 存 储 元 素 的 key 
} Bucket; 


//HashTable 结 构 

typedef struct _zend_array HashTable; 

struct _zend array { 
zend_refcounted bh gc; 


union { 
struct 4 
ZEND_ENDIAN_LOHI_4( 
zend_uchar flags, 
zend_uchar nApplyCount, 
zend_uchar nIteratorsCount, 
zend_uchar reserve) 
} v; 
uint32_t flags; 
Lu: 
uint32_t nTableMask; // 哈 希 值 计算 掩 码 ， 等 于 nTableSize 的 
负 值 (nTableMask = -nTableSize) 
Bucket *arData; // 存 储 元 素数 组 ， 指 向 第 一 个 Bucket 
Weinits >t nNumUsed; // 已 用 Bucket 数 
uint32_t nNumOfElements; // AA RA AAAA 
Wan ts nTableSize; // 哈 布 表 总 大 小 ， 为 2 的 n 次 方 
Bëbee Ee nInternalPointer; 
zend_long nNextFreeElement; // 下 一 个 可 用 的 数值 索引 ， 
r[] = 1;arr["a"] = 2;arr[] = 3; 则 nNextFreeElement = 2; 
dtor_func_t pDestructor; 


(éi 


HashTable 中 有 两 个 非常 相近 的 

值 : nNumUsed ` nNumOfElements ， nNumOfElements 表示 哈 希 表 已 有 元 素 
数 ， 那 这 个 值 不 跟 nNumUsed 一 样 吗 ?为 什么 要 定义 两 个 呢 ? 实际 上 它们 有 不 同 的 
含义 ， 当 将 一 个 元 素 从 哈 希 表 删 除 时 并 不 会 将 对 应 的 Bucket 移 除 ， 而 是 将 Bucket 存 


Nee IS_UNDEF ， 只 有 扩容 时 发 现 nNNumOfElements 与 NNumUsed 相 差 

达到 一 定数 量 (这 个 数量 是 : ht->nNumUsed - ht->nNumOfElements > (ht- 
>nNumOfElements >> 5) ) 时 才 会 将 已 删除 的 元 素 全 部 移 除 ， 重 新 构建 哈 希 表 。 所 
以 nNumUsed >= nNumOfElements ° 


HashTable 中 另外 一 个 非常 重要 的 值 arData ， 这 个 值 指向 存储 元 素数 组 的 第 一 个 
Bucket， 播 入 元 素 时 按 顺序 依次 插入 数组 ， 比 如 第 一 个 元 素 在 arData[0]、 第 二 个 
在 arData[1]...arData[nNumUsed]j。PHP 数 组 的 有 序 性 正 是 通过 arData 保证 的 ， 

这 是 第 一 个 与 普通 散 列 表 实 现 不 同 的 地 方 。 


既然 arData 并 不 是 按 key 映 射 的 散 列 表 ， 那 么 映射 函数 是 如 何 将 key 与 arData 中 的 
value 建 立 映射 关系 的 呢 ? 


实际 上 这 个 散 列 表 也 在 arData 中 ， 比 较 特 别 的 是 散 列 表 在 ht->arData 内 存 之 前 ， 
分 配 内 存 时 这 个 散 列 表 与 ， arData 向 后 移动 到 了 Bucket 数 组 的 
起 始 位 置 ， 并 不 是 申请 内 存 的 起 始 位 置 ， 这 样 散 列 表 可 以 由 arData 指 针 向 前 移动 访 
问 到 ， 即 arData[-1]、arData[-2] ` | GE 散 列 表 的 结构 是 uint32 _t ， 它 保 
存 的 是 value 在 Bucket 数 组 中 的 位 置 。 


所 以 ， 整 体 来 看 HashTable 主 要 依赖 arData 实 现 元 素 的 存储 、 索 引 。 插 入 一 个 元 素 
时 先 将 元 素 按 先后 顺序 插入 Bucket 数 组 ， 位 置 是 jidx， 再 根据 key 的 哈 希 值 映射 到 散 
列表 中 的 某 个 位 置 nlIndex， 将 idx 存 入 这 个 位 置 ; 查找 时 先 在 散 列 表 中 映射 到 
nlndex， 得 到 value 在 Bucket 数 组 的 位 置 idx， 再 从 Bucket 数 组 中 取出 元 素 。 


比如 : 
$arr["a"] 二 ak 
$arr["b"] = 2; 
sae — 2 
$arr["d"] = 4; 


unset($arr["c"]); 


对 应 的 HashTable 如 下 图 所 示 。 










HashTable 


nTableMask: -8 
nNumUsed: 4 


















7 d idx 
H 2 3i 
Bucket 










Bucket 








Bucket 


















zend_ulong h zend_ulong h zend_ulong h zend_ulong h 
zend_string "key zend_string *key zend_string "key 
zval zval zval zva 
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中 Bucket 的 zval.u2.next 默 认 值 应 该 为 -1， 不 是 0 


2.2.2 映射 函数 


映射 函数 ( 即 : 散 列 函 数 ) 是 散 列 表 的 关键 部 分 ， 它 将 key 与 Value 建 立 映射 关系 ， 一 
般 映 射 函数 可 以 根据 key 的 哈 希 值 与 Bucket 数 组 大 小 取 模 得 到 ， 即 key->h % ht- 
>nTableSize ， 但 是 PHP 却 不 是 这 么 做 的 : 


nIndex = key->h | ht->nTableMask; 


显然 位 运算 要 比 取 模 更 快 。 

nTableMask 为 nTableSize 的 负数 ， 即 : nTableMask = -nTableSize ， 
为 nTableSize 等 于 2^n， 所 以 nTableMask 二 进 制 位 右 侧 全 部 为 0， 也 就 保证 了 
nlndex 落 在 数组 索引 的 范围 之 内 ( |nIndex| <= nTableSize ) : 


dE ak 22 ab Eaboigtg = 

dk 2, 29 aka, T T0000 St 
d aa Da EE ak Lotte 232 
T00000 -64 
a a E e o a TITTILI 1111111110000000 -128 


2.2.3 哈 布 碰撞 


哈 希 碰撞 是 指 不 同 的 key 可 能 计算 得 到 相同 的 哈 希 值 (数值 索引 的 哈 希 值 直接 就 是 数 
值 本 身 )， 但 是 这 些 值 又 需要 插入 同一 个 散 列表 。 一 般 解 决 方法 是 将 Bucket 串 成 链 
表 ， 查 找 时 遍历 链表 比较 key。 


PHP 的 实现 也 是 如 此 ， 只 是 将 链表 的 指针 指向 转化 为 了 数值 指向 ， 即 : 指向 冲突 元 
素 的 指针 并 没有 直接 存在 Bucket 中 ， 而 是 保存 到 了 value 的 zval 中 : 


struct _zval_struct { 


zend_value value; /* value */ 
union { 
KERSCH var_flags; 
Vimes2 next; Z' baseh collision cha 
EE 
ummet s2 at cache_slot; /* literal cache slot 
GE 
HIE lineno; /* Line number (for a 
st nodes) */ 
UNESA IE num_args; /* arguments number f 
ENEE 
uInt322 Te Dos: AOne chips ETONE 
US Te iter_idx; /* foreach iterator i 
ndex */ 
} u2; 


Ié 
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当 出 现 冲 突 时 将 原 value 的 位 置 保存 到 新 value 的 zval.u2.next 中 ， 然 后 将 新 插入 
的 value 的 位 置 更 新 到 散 列 表 ， 也 就 是 后 面 冲突 的 value 始 终 插 入 header。 所 以 查找 
过 程 类 似 : 


zend_ulong h = zend_string_hash_val(key); 
uint32_t idx = ht->arHash[h & ht->nTableMask]; 
while (idx != INVALID_IDX) { 
Bucket *b = &ht->arData[idx]; 
if (b->h == h && zend_string_equals(b->key, key)) { 
return b; 
} 
idx = Z_NEXT(b->val); // 移 到 下 一 个 冲突 的 value 
} 
return NULL; 


2.2.4 插入 、 查 找 、 删 除 


这 几 个 基本 操作 比较 简单 ， 不 再 考 述 ， 定 位 到 元 素 所 在 Bucket 位 置 后 的 操作 类 似 单 
链表 的 插入 、 删 除 、 查 找 。 


2.2.5 扩容 


散 列 表 可 存储 的 value 数 是 国定 的 ， 当 空间 不 够 用 时 就 要 进行 扩容 了 。 


PHP 散 列表 的 大 小 为 2*n， 播 入 时 如 果 容 量 不 够 则 首先 检查 已 删除 元 素 所 占 比 例 ， 
如 果 达 到 赔 值 (ht->nNumUsed - ht->nNumOfElements > (ht->nNumOfEIlements >> 
5)， 则 将 已 删除 元 素 移 除 ， 重 建 索 引 ， 如 果 未 到 阅 值 则 进行 扩容 操作 ， 扩 大 为 当前 
大 小 的 2 倍 ， 将 当前 Bucket 数 组 复制 到 新 的 空间 ， 然 后 重建 索引 。 


//zend_hash.c 
static void ZEND_FASTCALL zend_hash_do_resize(HashTable *ht) 


{ 


if (ht->nNumUsed > ht->nNumOfElements + (ht->nNumOfElements 
>> 5)) { 
// 只 有 到 一 定 阅 值 才 进 行 rehash 操 作 
zend_hash_rehash(ht); / /重建 索引 数组 
} else if (ht->nTableSize < HT_MAX_SIZE) { 
MEES 
void *new_data, *old_data = HT_GET_DATA_ADDR(ht); 
/V/ 扩 大 为 2 倍 ， 加 法 要 比 乘 法 快 ， 小 的 优化 点 无 处 不 在 ,,， 
uint32_t nSize = ht->nTableSize + ht->nTableSize; 
Bucket *old_buckets = ht->arData; 


// 新 分 配 arData 空 间 ， 大 小 为 :(sizeof(Bucket) + sizeof (uint32_ 
ty TF nëize 
new_data = pemalloc(HT_SIZE_EX(nSize, -nSize), ...); 


ht->nTableSize = nSize; 

ht->nTableMask = -ht->nTableSize; 

// 将 arData 指 针 偏 移 到 Bucket 数 组 起 始 位 置 

HT_SET_DATA ADDR(ht, new_data); 

// 将 四 的 Bucket 数 组 找到 新 空间 

memcpy(ht->arData, old_buckets, sizeof(Bucket) * ht->nNu 


mUsed); 
// 释 放 旧 空间 
pefree(old data, ht->u.flags & HASH_FLAG PERSISTENT); 
/ /重建 索引 数组 : 散 列表 
zend_hash EE 
} 
} 


#define HIT SET DATA ADDR(ht, ptr) do { \ 
(ht)->arData = (Bucket*)(((char*)(ptr)) + HT_HASH_SIZE(( 
ht)->nTableMask)); 
} while (0) 


2.2.6 重建 散 列 表 


当 删 除 元 素 达 到 一 定数 量 或 扩容 后 都 需要 重建 散 列 表 ， 因 为 value 在 Bucket 位 置 移 
动 了 或 哈 希 数组 nTableSize 变 化 了 导致 Key 与 value 的 映射 关系 改变 ， 重 建 过 程 实际 
就 是 遍历 Bucket 数 组 中 的 value， 然 后 重新 计算 映射 值 更 新 到 散 列 表 ， 除 了 更 新 散 
列表 之 外 ， 这 里 还 有 一 个 重要 的 处 理 : 移 除 已 删除 的 value， 开 始 的 时 候 我 们 说 过 ， 
删除 value 时 只 是 将 value 的 type 设 置 为 IS_ UNDEF， 并 没有 实际 从 Bucket 数 组 中 删 
除 ， 如 果 这 些 value 一 直 存 在 那么 将 浪费 很 多 空间 ， 所 以 这 里 会 把 它们 移 除 ， 操 作 的 


方式 也 比较 简单 : 将 后 面 未 删除 的 value 依 次 前 移 ， 有 具体 过 程 如 下 


//zend hash.c 


ZEND_API int ZEND_FASTCALL zend_hash_rehash(HashTable *ht) 


{ 
Bucket *p; 
uint32_t nIndex, i; 
L S= OF 
p = ht->arData; 
if (ht->nNumUsed == ht->nNumOfElements) { // ŻA ZMA iJ H48 
万 BucKket 数 组 重新 插入 索引 数组 即 可 
do / 
nIndex = p->h | ht->nTableMask; 
Z_NEXT(p->val) = HT_HASH(ht, nIndex); 
HT_HASH(ht, nIndex) = HT_IDX_TO_HASH(i); 
D'rz, 
} while (++i < ht->nNumUsed ) 
} else { 
do { 
if (UNEXPECTED(Z_TYPE(p->val) == IS_UNDEF)) { 
// 有 已 删除 元 素 则 将 后 面 的 value 依 次 前 移 ， 压 实 Bucket 数 组 
while (++i < ht->nNumUsed) { 
pt+; 
if (EXPECTED(Z_TYPE_INFO(p->val) != IS_UNDEF 
)) { 


ZVAL_COPY_VALUE(&q->val, &p->val); 


q->h = p->h; 
nIndex = q->h | ht->nTableMask; 
q->key = p->key; 


Z_NEXT(q->val) = HT_HASH(ht, nIndex); 
HT_HASH(ht, nIndex) = HT_IDX_TO_HASH(j); 
if (UNEXPECTED(ht->nInternalPointer == i 


ht->nInternalPointer = j; 


ht->nNumUsed = j; 
break; 


nIndex = p->h | ht->nTableMask; 
Z_NEXT(p->val) = HT_HASH(ht, nIndex); 
HT_HASH(ht, nIndex) = HT_IDX_TO_HASH(i); 
p++; 


}while(++i < ht->nNumUsed); 


除了 上 面 这 些 操作 ，PHP 中 关于 HashTable 的 还 有 很 
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2.3 静态 变量 


PHP 中 局 部 交 量 分 配 在 zend_execute_data 结 构 上 ， 每 次 执行 zend_op mae 
生成 一 个 新 的 zend_execute_data， 局 部 变量 在 执行 之 初 分 配 ， 然 后 在 执行 结束 时 
释放 ， 这 是 局 部 变量 的 生命 周期 ， 而 局 部 变量 中 有 一 种 特殊 的 类 型 : 静态 变量 ， 它 
们 不 会 在 函数 执行 完 后 释放 ， 当 程序 执行 离开 函数 域 时 静态 e 
下 次 执行 时 仍然 可 以 使 用 之 前 的 值 。 


PHP 中 的 静态 变量 通过 static 关键 词 创 建 : 


function MY Tuncili 
static $count = 4; 
$count++; 
echo $count, "\n"; 

} 

my_func(); 

my_func(); 


2.3.1 静态 变量 的 存储 


静态 变量 既然 不 会 随 执 行 的 结束 而 释放 ， 那 么 很 容易 想到 它 的 保存 位 
zend_op_array->static_variables ， 这 是 一 个 哈 希 表 ， 所 以 PHP 中 的 静 
变量 与 普通 局 部 变量 不 同 ， 它 们 没有 分 配 在 执行 空间 zend_execute_ data 上 )， 而 
以 哈 希 表 的 形式 保存 在 zend_op_array 中 。 


静态 变 只 会 初始 化 一 次 ， 注 意 : 它 的 初始 化 发 生 在 编译 阶段 而 不 是 执行 阶 
段 ， 上 面 这 个 例子 中 : static $count = 4; 是 在 编译 阶段 发 现 定 义 了 一 个 
静态 变量 ， 然 后 插 进 了 zend_op_array->static_variables 中 ， 并 不 是 执行 的 时 候 
Ze stat a 的 值 修 改 为 4， 所 以 上 面 执 行 的 时 候 会 输出 5、6， 再 次 执 
行 并 没有 重 置 静态 变量 的 值 。 


这 个 特性 也 意味 着 静态 变量 初始 的 值 不 能 是 变量 ， 比 如 : static $count = 
$xxx; 这 样 定义 将 会 报错 


2.3.2 静态 变量 的 访问 


g 编译 时 确定 的 编号 进行 读 写 操作 ， 而 静态 变量 通过 哈 希 表 保存 ， 这 就 
是 通过 变量 名 索引 的 ， 


局 部 变量 通过 
使 得 其 不 能 像 普通 变量 那样 有 一 个 固定 的 编号 ， 有 一 种 可 季 
那么 究竟 是 否 如 此 呢 ? 我 们 分 析 下 其 编译 过 程 。 


静态 变量 编译 的 语法 规则 : 


Statement: 


| T_STATIC static_var_list ';' { $$ = $2; } 


static_var_list: 
static_var_list ',' static_var { $$ = zend_ast_list_add($ 
EE, 
| static var { $$ = zend_ast_create_list(1, ZEND_AST_STMT_ 
LIST, $1); } 


£ 


static_var: 


T_VARIABLE { $$ = zend_ast_create(ZEND_AST_STAT 
IC, $1, NULL); } 
| T_VARIABLE '=' expr { $$ zend ast_create(ZEND_AST_STAT 


Wo, Si, Se 
MESS, A 
语法 解析 后 生成 了 一 个 ZEND_AST_STATIC 语法 树 节 点 ， 接 着 再 看 下 这 个 节点 编译 
为 opcode 的 过 程 ` zend_compile_static_var ° 


void zend_compile_static_var(zend_ast *ast) 


{ 
zend_ast *var_ast = ast->child[0]; 
zend_ast *value_ast = ast->child[1]; 
zval value_zv; 
if (value_ast) { 
// 定 义 了 初始 值 
zend_const_ evpr Co zval(&value zv, value ast); 
} else { 
// 无 初始 值 
ZVAL_NULL(&value_zv); 
} 
zend_compile_ static var_common(var_ast, &value_zv, 1); 
} 


这 里 首先 对 初始 化 值 进行 编译 ， 最 终 得 到 一 个 固定 值 ， 然 后 调 

用 : zend_compile static var_common() 处 理 ， 首 先 判断 当前 编译 

的 zend_op_array->static_variables 是 否 已 创建 ， 未 创建 则 分 配 一 个 
HashTable， 接 着 将 定义 的 静态 变量 插入 : 


ZAzendEcompaieEsacEVaracommnon (全 

if (!CG(active_op_array)->static_variables) / 
ALLOC_HASHTABLE(CG(active_op_array)->static_variables); 
zend_hash_init(CG(active_op_array)->static_variables, 8, NULL 

, ZVAL_PTR_DTOR, 0); 

} 

/ [462 
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zend bach update(CG(active op_array)->static variables, Z_STR(va 
r_node.u.constant), value); 


[E 了 了 产 产 守 玫 潭 


插入 静态 变量 哈 厦 表 后 并 没有 完成 ， 接 下 来 还 有 一 个 重要 操作 : 


// 生 成 一 条 ZEND_FETCH_W 的 opcode 

opline = zend emit op(&result, by_ref ? ZEND_FETCH_W : ZEND_FETC 
HR. &var_node, NULL); 

opline->extended_value = ZEND_FETCH_STATIC; 


if (by_ref) { 
zend_ast *fetch_ast = zend_ast_create(ZEND_AST_VAR, var_ast) 


// 生 成 一 条 ZEND_ASSIGN_REF 的 opcode 
zend_emit assign_ref_ znode(fetch ast, &result); 


后 面 生成 了 两 条 opcode : 


e ZEND_FETCH_W: 这 条 opcode 对 应 的 操作 是 创建 一 个 IS_INDIRECT 类 型 的 
Zzval， 指 向 static_variables 中 对 应 静态 变量 的 Zzval 
e ZEND_ASSIGN_REF: 它 的 操作 是 引用 赋值 ， 即 将 一 个 引用 赋值 给 CV 变 量 


通过 上 面 两 条 opcode 可 以 确定 静态 变量 的 读 写 过 程 : 首先 根据 变量 名 在 
static_variables 中 取出 对 应 的 zval， 然 后 将 它 修改 为 引用 类 型 并 赋值 给 局 部 变量 ， 
也 就 是 说 static $count = 4; 包含 了 两 个 操作 ， 严 格 的 将 $count 并 不 是 真正 
的 静态 变量 ， 它 只 是 一 个 指向 静态 变量 的 局 部 变量 ， 执 行 时 实际 操作 是 : $count 
= & static_variables["count"]; °。 上 面 例子 $count 与 static_variables["count"] 
间 的 关系 如 图 所 示 。 


static_variables[ “count” ] 


Bas zend_reference 
IS_REFERENCE 


zval val 


zend_execute_data type = IS_LONG 


value,lval = 4 


zval $count 
IS_REFERENCE 
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2.4 全 局 变量 


PHP 中 把 定义 在 函数 、 类 之 外 的 变量 称 之 为 全 局 变量 ， 也 就 是 定义 在 主 脚 本 中 的 变 
量 ， 这 些 变量 可 以 在 防 数 、 成 员 方法 中 通过 global 关 键 字 引入 使 用 。 


function test() { 
global $id; 
$id++; 


let 
test() 
echo $id; 


2.4.1 全 局 变量 初始 化 


全 局 变量 在 整个 请 求 执行 期 间 始 终 存在 ， 它 们 保存 在 EG(symbol_table) 中 ， 也 
就 是 全 局 变量 符号 表 ， 与 静态 变量 的 存储 一 样 ， 这 也 是 一 个 哈 希 表 ， 主 脚本 (或 
include、require) 在 zend_execute_ex 执行 开始 之 前 会 把 当前 作用 域 下 的 所 有 局 
部 变量 添加 到 EG(symbol_table) 中 ， 这 一 步 操作 后 面 介绍 Zend 执 行 过 程 时 还 会 
讲 到 ， 这 里 先 简单 提 下 : 


ZEND_API void zend execute(zend op array “op array, zval *return 
_value) 


{ 





i_init_execute_data(execute_data, op_array, return_value); 
zend_execute_ex(execute_data); 


i_init_execute_data() XA Až F a45% A E 46A A EG(symbol_table) : 


ZEND API void zend attach symbol table(zend execute data “execut 
e data) 


{ 
zend_op_array *op_array = &execute data->func->op_array; 
HashTable *ht = execute_data->symbol_table; 


if (!EXPECTED(op_array->last var)) { 
return; 


zend_string **str = op_array->vars; 
zend_string **end = str + op_array->last_var; 
// 局 部 变量 数组 起 始 位 置 

zval *var = EX_VAR_NUM(O ) ， 


do{ 
zval *zv = zend_hash_find(ht, *str); 
// 插 入 全 局 变量 符号 表 
zv = zend_hash add new(ht, *str, var); 
// 哈 希 表 中 value 指 向 局 部 变量 的 ZVval 
ZVAL_INDIRECT(zv, var); 


}while(str != end); 


从 上 面 的 过 程 可 以 很 直观 的 看 到 ， 在 执行 前 遍历 局 部 变量 ， 然 后 插入 

EG(symbol table)，EG(symbol table) 中 的 value 直 接 指 向 局 部 变量 的 zval， 示 例 经 
过 这 一 步 的 处 理 之 后 (此 时 局 部 变量 只 是 分 配 了 zval， 但 还 未 初始 化 ， 所 以 是 
IS_UNDEF) : 


zend_execute data 


EG(symbol table)[ “id” ] ge 
value.zv i 
IS_UNDEF 


2.4.2 全 局 变量 的 访问 





与 静态 变量 的 访问 一 样 ， 全 局 变量 也 是 将 原来 的 值 转换 为 引用 ， 然 后 在 global 导 入 
的 作用 域内 创建 一 个 局 部 变量 指向 该 引用 : 


global $id; // 相当 于 $id = & EG(symbol_table)["id"]; 


具体 的 操作 过 程 不 再 细 讲 ， 与 静态 变量 的 处 理 过 程 一 致 ， 这 时 示例 中 局 部 变量 与 全 
局 变量 的 引用 情况 如 下 图 。 


EG(symbol_table)[ “id” ] 







zval 


type = 
IS REFERENCE zend_reference 


zval val 


type = IS LONG 


value.zv 






value.ref 





zend_execute_data 


SE 
IS REFERENCE 


2.4.3 超 全 局 变量 
全 局 变量 除了 通过 global 引 入 外 还 有 一 类 特殊 的 类 型 ， 它 们 不 需要 使 用 global 引 入 而 
可 以 直接 使 用 ， 这 些 全 局 变量 称 为 : 超 全 局 变量 。 


超 全 局 变量 实际 是 PHP 内 核定 义 的 一 些 全 局 变量 : $GLOBALS、$_SERVER、 
$ REQUEST ` $_POST ` $_GET ` $_FILES ` $_ENV ` $_COOKIE >` 
$_SESSION ` argv ` argc ° 


N 


AA 销毁 


är SS ëzzhzpe, MAE RAT Ra ENAR o” ok ES mn 
是 在 整个 请 求 结束 时 才 会 销毁 ， 即 使 是 我 们 直接 在 PHP 脚 本 中 定义 在 函数 外 的 那些 
变 


void shutdown_destructors(void) 


{ 
if (CG(unclean_shutdown)) { 
EG(symbol_table).pDestructor = zend_unclean_zval_ptr_dto 
r; 
} 
zend_try { 
uint32_t symbols; 
do { 
symbols = zend_hash_num_elements(&EG(symbol_table)); 
//4 St 


zend_hash_reverse_apply(&EG(symbol_table), (apply_fu 
nc_t) zval_call_destructor); 
} while (symbols != zend_hash_num elements(&EG(symbol ta 
ble))); 


} 


A a 
2.5 hE 
常量 是 一 个 简单 值 的 标识 符 (名 字 ) 。 如 同 其 名 称 所 上 暗示 的 ， 在 脚本 执行 期 间 该 值 
不 能 改变 。 常 量 默认 为 大 小 写 敏感 。 通 常常 量 标识 符 总 是 大 写 的 。 


常量 名 和 其 它 任何 PHP 标签 遵循 同样 的 命名 规则 。 合 法 的 常量 名 以 字母 或 下 划 线 
开始 ， 后 面 跟着 任何 字母 ， 下 划 线 。 


PHP 中 的 常量 通过 define() 函数 定义 : 


define('CONST_VAR 1', 1234); 


2.5.1 第 量 的 存储 


在 内 核 中 常量 存储 在 EG(zend_constants) 哈 硕 表 中 ， 访 问 时 也 是 根据 常量 名 直 
接 到 哈 希 表 中 查找 ， 其 实现 比较 简单 。 


常量 的 数据 结构 : 


typedef struct -zenc- Constant { 





zval value; // 常 量 值 
zend_string Die // 第 量 名 

int flags; // 常 量 标 识 位 

int module_number; / /所属 扩展 、 模 块 


} zend Constant: 


常量 的 几 个 属性 都 比较 直观 ， 这 里 只 介绍 下 flags， 它 的 值 可 以 是 以 下 三 个 中 任意 组 
人 e 


#define CONST_CS (1<<0) // 大 小 号 
#define CONST_PERSISTENT (1<<1) // 持 
#define CONST_CT_SUBST (1<<2) ”// 允 许 





介绍 下 三 种 flag 代 表 的 含义 : 


Ka 
ba 
$ 
Ae 
pa 


e CONST_CS: K BRA’ RUÆHE H > MP Ñ itdefine() à 


分 大 小 写 的 ， 通 过 扩展 定义 的 可 以 自由 选择 
e CONST _ PERSISTENT: 持久 化 的 ， 只 有 通过 扩展 、 内 核定 义 的 才 支 持 ， 这 种 
常量 不 会 在 request 结 束 时 清理 掉 
e CONST_CT_SUBST: 允许 编译 时 替换 ， 编 译 时 如 果 发 现 有 地 方 在 读 取 常 量 的 
值 ， 那 么 编译 器 会 党 试 直 接替 换 为 常量 值 ， 而 不 是 在 执行 时 再 去 读 取 ， 目 前 这 
个 flag 只 有 TRUE 、FALSE、NULL 三 个 常量 在 使 用 


2.5.2 常量 的 销毁 


非 持 久 化 常量 在 request 请 求 结束 时 销毁 ， 具 体 销 毁 操 作 
在 : php_request_shutdown()->zend_deactivate()->shutdown_executor()- 


>clean_non_persistent constants() ° 


void clean non_persistent_constants(void) 


{ 
if (EG(ful] tables cleanup)) { 
zend_hash applviEGizend constants), clean_ non_persistent 
_constant_full); 
} else { 
zend_hash_reverse_apply(EG(zend_constants), clean_non_pe 


rsistent_constant); 


} 


然后 从 哈 希 表示 尾 开 始 向 前 遍历 EG(zend_constants)， 将 非 持久 化 常量 删除 ， 直 到 
碰 到 第 一 个 持久 化 常量 时 ， 停 止 遍 历 ， 正 常情 况 下 所 有 通过 扩展 定义 的 常量 一 定 是 
在 PHP 中 通过 define 定 义 之 前 ， 当 然 也 并 非 绝对 ， 这 里 只 是 说 在 所 有 常量 均 是 在 


MINT 人 阶段 定义 的 情况 。 


持久 化 常量 是 在 php_module_shutdown() 阶段 销毁 的 ， 有 具体 过 程 与 上 面 类 似 。 


3.1 PHP 代 码 的 编译 


PHP 是 解析 型 高 级 语言 ， 事 实 上 从 Zend 内 核 RE 的 C 程 
序 ， 它 有 main 远 数 ， pom 的 PHP 代 码 是 这 个 程序 的 输入 ， 然 后 经 过 内 核 的 处 理 输 
出 结果 ， 内 核 将 PHP 人 代码" 翻译 "为 C 程 序 Se | 的 过 程 就 是 PHP 的 编译 。 


那么 这 个 "翻译 "过 程 具体 都 有 哪些 操作 呢 ? 


a a s 码 ， 每 一 个 操作 都 认为 是 一 条 机 器 指令 ， 
这 些 指令 写 入 到 编译 后 的 二 进 制程 序 中 ， 执 行 的 时 候 将 二 进 制程 序 load 进 相应 的 内 
SE EBR an) an & 行 栈 ， 然 后 从 代码 区 起 始 位 置 开始 执 

行 ， 这 是 C 程 序 编译 、 执 行 的 简单 过 程 。 


同样 ，PHP 的 编译 与 普通 的 C 程 序 类 似 ， 只 是 PHP 代 码 没 有 编译 成 机 器 码 ， 而 是 解 
析 成 了 若干 条 opcode 数 组 ， 每 条 opcode 就 是 C 里 面 普通 的 struct， 含 义 对 应 C 程 序 
的 机 器 指令 ， 执 行 的 过 程 就 是 引擎 依次 执行 opcode， 比 如 我 们 在 PHP 里 定义 一 个 变 
量 : $a = 123; ， 最 终 到 内 核 里 执行 就 是 malloc 一 块 内 存 ， 然 后 把 值 写 进去 。 

所 以 PHP 的 解析 过 程 任务 就 是 将 PHP 代 码 转 化 为 opcode 数 组 ， 代 码 里 的 所 有 信息 
保存 在 opcode 中 ， 然 后 将 opcode 数 组 交 给 zend 引擎 执行 ，opcode 就 是 内 核 eg 
行 的 命令 ， 比 如 赋值 、 加 减 操 作 、 函 数 调用 等 ， 每 一 条 opcode 都 对 应 一 个 处 理 
handle， 这 些 handler 是 提前 定义 好 的 C 函 数 。 


从 PHP 代 码 到 opcode 是 怎么 实现 的 ? 最 容易 想到 的 方式 就 是 正则 匹配 ， 当 然 过 程 没 
有 这 么 简单 。PHP 编 译 过 程 包 括 词 法 分 析 、 语 法 分 析 ， 使 用 re2c、bison 完 成 ， 旧 的 
PHP 版 本 直接 生成 了 opcode，PHP7 新 增 了 抽象 语法 树 (AST) ， 在 语法 分 析 阶 段 
生成 AST， 然 后 再 生成 opcode 数 组 。 


PHP 编 译 阶段 的 基本 过 程 如 下 图 : 


zend_execute_scripts() 











PENTE ry zendparsef) zend_compile top_stmt!() 
Io 二 zl > 
compile_file() -PHP 代码 词法 /语法 分 析 ST A Opcodes» pass woll 





后 面 两 个 小 节 将 看 下 PHP 代 码 ->AST->Opcodes 的 具体 编译 过 程 。 


3.1.1 词法 解析 、 语 法 解析 
一 节 我 们 分 析 下 PHP 的 解析 阶段 ， 即 PHP 代 码 -> 抽象 语法 树 (AST) 的 过 程 。 
PHP 使 用 re2c、bison 完 成 这 个 阶段 的 工作 : 


e re2c: 词法 分 析 器 ， 将 输入 分 割 为 一 个 个 有 意义 的 词 块 ， 称 为 token 
e bison: 语法 分 析 器 ， 确 定 词 法 分 析 器 分 割 出 的 token 是 如 何 彼此 关联 的 


例如 : 


KE EE 


词法 分 析 器 将 上 面 的 语句 分 解 为 这 些 token : $a、=、2、+、3， 接 着 语法 分 析 器 确 
ET 2+3 是 一 个 表达 式 ， 而 这 个 表达 式 被 赋值 给 了 a ， 我 们 可 以 这 样 定 义 词 法 解 
析 规 则 : 


Free 
LABEL [a-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]* 
LNUM [0-9]+ 
// 规 则 


"$"{LABEL} {return T_VAR;} 
{LNUM} {return T_NUM};} 
Ey 


然后 定义 语法 解析 规则 : 


//token 定 义 
%token T_VAR 
%token T_NUM 


// 语 法 规则 
statement: 

T_VAR '=' T_NUM '+' T_NUM {ret = str2int($3) + str2int($5);p 
vinti (c 2d ret); y 


F 


上 面 的 语法 规则 只 能 识别 两 个 数值 相 加 ， 假 如 我 们 希望 支持 更 复杂 的 运算 ， 比 如 : 


pa 3 EAEE; 


则 可 以 配置 递归 规则 : 


// 语 法 规则 
statement: 

T_VAR '=' expr {} 
expr: 

T_NUM {...} 


|expr '?' T_NUM {} 


这 样 将 支持 若干 表达 式 ， 用 语法 分 析 树 表示 : 





接 下 来 我 们 看 下 PHP 有 具体 的 解析 过 程 ，PHP 编 译 阶 段 流程 : 


zend_compile_top_stmt() Dpcodes 
解析 AST， 生 成 opcodes 


其 中 zendparse() 就 是 词法 、 语 法 解析 过 程 ， 这 个 函数 实际 就 是 bjson 中 提供 的 语 
法 解析 函数 yyparse() : 








SES 
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#define yyparse zendparse 


yyparse() 不 断 调用 yylex() 得 到 token， 然 后 根据 token 匹 配 语 法 规则 : 







compile_file() 


yyparsel) 


解析 token 


yylex{zend_parser_stack_elem *elem) 


lex_scan(zval *zendlval) 
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#define yylex zendlex 


//zend_compile.c 
int zendlex(zend_parser_stack_elem *elem) 


上 


zval zV; 
int retval; 


again: 
ZVAL_UNDEF(&zv); 
retval = lex_scan(&zv); 
if (EG(exception)) { 
// 语 法 错误 
return T_ERROR; 


if (Z_TYPE(zv) != IS UNDEF) { 
// 如 果 在 分 割 token 中 有 Zzval 生 成 则 将 其 值 复 制 到 zend ast zval 结 构 中 
elem->ast = zend aset Create zval(&zvV); 


return retval; 


这 里 两 个 关键 点 需要 注意 N 


(1) token 值 : 词法 解析 器 解析 到 的 token 值 内 容 就 是 token 值 ， 这些 值 统一 通过 zval 
存储 ， 上 面 的 过 程 中 可 以 看 到 调用 lex_scan 参 数 是 是 个 zyval*， 在 具体 的 命中 规则 总 
会 将 解析 到 的 token 保 存 到 这 个 值 ， 从 而 传递 给 语法 解析 器 使 用 ， 比 如 PHP 中 的 解 
析 变 量 的 规则 : ga; ， 其 词法 解析 规则 为 : 


<ST_IN_SCRIPTING, ST_DOUBLE_QUOTES, ST_HEREDOC, ST_BACKQUOTE, ST_VAR 
armeer IL eEG { 
dëtt oken 值 保存 在 zZval 中 


SE value(zendlval， RE (yyleng-1)); // 只 保存 {L 


ADC q ES a 7 名， E 。 FF KE: oer A 


RETURN TIENG a 


zendival 就 是 我 们 传 入 的 Zval* ，yytext 指 向 命中 的 token 值 起 始 位 置 ，yyleng 为 token 
值 的 长 度 


(2) 语义 值 类 型 : bison 调 用 re2c 分 割 token 有 两 个 ， 第 一 个 是 token 类 型 ， 另 一 
个 是 token 值 ，token 类 型 一 般 以 yylex 的 返 ere ， 而 token 值 就 是 语义 值 ， 
这 个 值 一 般 定 义 为 固定 的 类 型 ， 这 个 类 型 就 是 语义 值 类 型 ， 默 认为 jnt， 可 以 通过 
YYSTYPE 定义 ， 而 PHP 中 这 个 类 型 是 zend_parser_stack_elem ， 这 就 是 为 什么 

Zendlex 的 参数 为 zend_parser_stack_elem 的 原因 。 


#define YYSTYPE zend_ Darser stack elen 


typedef union _zend pe stack. elem { 
zend_ast *ast; dd SE ERE 
Zend String *str; 
Zend ulong num; 

} zend parser stack elen: 


实际 这 是 个 union，ast 类 型 用 的 比较 多 (其 它 两 种 类 型 暂时 没 发 现 有 地 方 在 用 )， 这 
样 可 以 通过 %token、%type 将 对 应 的 值 修 改 为 elem.ast， 所 以 在 
zendlanguageparser.y 中 使 用 的 $$、$1、$2...... 多 数 都 是 

__Zzend _ parser stack elem.ast ` 


%token <ast> T_LNUMBER "integer number (T_LNUMBER)" 

%token <ast> T_DNUMBER "floating-point number (T_DNUMBER)" 
%token <ast> T_STRING "identifier (T_STRING)" 

%token <ast> T_VARIABLE "variable (T_VARIABLE)" 


%type <ast> top_statement namespace_name name statement function 
_declaration_statement 

%type <ast> class_declaration_statement trait_declaration_statem 
ent 

%type <ast> interface_declaration_statement interface_extends_li 
st 


法 解析 器 从 start 开 始 调用 ， 然 后 层 层 匹配 各 个 规则 ， 语 法 解析 器 根据 命中 的 语 ; 
规则 创建 AST 节 点 ， 最 后 将 生成 的 AST 根 节点 赋 到 CG(ast) : 


%% /* Rules */ 


start: 
top_statement_list { CG(ast) = $1; } 


top_statement_list: 

top_statement_list top_statement { $$ = zend_ast_list_add($1 
, $2); } 

| /* empty */ { $$ = zend ast Create list(0, ZEND AGT STMT 
RLS) 


首先 会 创建 一 个 根 节点 list， 然 后 将 后 面 不 断 命中 top_statement 生 成 的 ast 加 到 这 
list 中 ，Zzend_ast 具 体 结构 : 


enum _zend_ast_kind { 
ZEND_AST_ZVAL = 1 << ZEND_AST_SPECIAL_SHIFT, 
ZEND_AST_ZNODE, 


/* list nodes */ 
ZEND_AST_ARG_LIST = 1 << ZEND_AST_IS_LIST_SHIFT, 





(éi 


struct _zend_ast { 

zend_ast_kind kind; /* Type of the node (ZEND_AST_* enum con 
Stantl "4 

zend_ast_attr attr; /* Additional attribute, use depending o 
Dn pnode Cvpe "4 

uint32_t lineno; /* Line number */ 

zend_ast *child[1]; /* Array of children (using struct hack) 

ay 

}; 


typedef struct _zend ast_ Lier { 
zend ast_kind kind; 
zend ast attr attr; 
uint32_t lineno; 
uint32_t children: 
zend_ast *child[1]; 

} zend aset Liser: 


根 节点 实际 为 zend_ast list， 每 条 语句 对 应 的 ast 保 存在 child 中 ， 使 用 中 
Zend_ast list、zend _ ast 可 以 相互 转化 ，kind 标 识 的 是 ast 节 点 类 型 ， 后 面 会 根据 这 
个 值 生成 具体 的 opcode， 另 外 函数 、 类 还 会 用 到 另外 一 种 ast 节 点 结构 : 


typedef struct _zend_ast_decl { 
zend_ast_kind kind; 


zend_ast_attr attr; /* Unused - for structure compatibility 


SE 
Uint32 t start Linen: // 开 始 行 号 
uint32_t end Lineng: // 结 束 和 
uint32_t flags; 
unsigned char "lex Dos: 
zend_string *doc_comment; 
zend_string *name; 


zend_ast *child[4]; // 类 中 会 将 继承 的 父 类 、 实 现 的 接口 以 及 类 中 的 i 


析 保 存在 child 中 
} zend aset decl: 


么 看 比较 难 理解 ， 接 下 来 我 们 从 一 个 简单 的 例子 看 下 最 终生 成 的 语法 树 。 


$a = 123; 
$b 二 Wn 


echo $a,$b; 


具体 解析 过 程 这 里 不 再 解释 ， 有 兴趣 的 可 以 翻 下 zend_ language_parse.y 中 ， 
过 程 不 太 容易 理解 ， 需 要 多 领悟 几 遍 ， 最 后 生成 的 ast 如 下 图 : 
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kind:ZEND_AST_VAR 


kind:ZEND_AST_ZVAL 
“a” (IS_STRING) 


kind:ZEND_AST_ZVAL 
“b” (IS_STRING) 














kind:ZEND_AST_ZVAL 
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— — kind:ZEND_AST_ECHO | |kind:ZEND_AST_ECHO 
kind:ZEND_AST VAR| 。 |Kind:ZEND_AST_ZVAL| |kind:ZEND_AST VAR| |Kind:2END_AST_ZVAL e ; 


kind:ZEND_AST_ZVAL 
“b” (IS_STRING) 


这 个 






这 一 节 我 们 主要 介绍 了 PHP 词 法 、 语 法 解析 生成 抽象 语法 树 (AST) 的 过 程 ， 此 过 程 
是 PHP 语 法 实现 的 基础 ， 也 是 zend 引 擎 非常 关键 的 一 部 分 ， 后 续 介 绍 的 内 容 都 是 基 
于 此 过 程 的 产 出 结果 展开 的 。 这 部 分 内 容 关 键 在 于 对 re2c、bison 的 应 用 上 ， 如 果 是 
初次 接触 它们 可 能 不 太 容 易 理 解 ， 这 里 不 再 对 re2c、bison 作 更 多 解释 ， 想 要 了 解 更 
多 的 推荐 看 下 《flex 与 bison》 这 本 书 。 


3.1.2 抽象 语法 树 编译 流程 


上 一 小 节 我 们 简单 介绍 了 从 PHP 代 码 解 析 为 抽象 语法 树 的 过 程 ， 这 一 节 我 们 再 介绍 
下 从 抽象 语法 树 ->Opcodes 的 过 程 。 


语法 解析 过 程 的 产物 保存 于 CG(AST)， 接 着 zend 引 擎 会 把 AST 进 一 步 编译 为 
zend_op_array ， 它 是 编译 阶段 最 终 的 产物 ， 也 是 执行 阶段 的 输入 ， 后 面 我 们 介绍 
的 东西 基本 都 是 围绕 zendoparray 展 开 的 ，AST 解 析 过 程 确定 了 当前 脚本 定义 了 哪 
些 变量 ， 并 为 这 些 变量 “顺序 编号 ， 这 些 值 在 使 用 时 都 是 按照 这 个 编号 获取 的 ， 
另外 也 将 变量 的 初始 化 值 、 调 用 的 函数 /类 /常量 名 称 等 值 ( 称 之 为 字面 量 ) 保 存 到 
zend_op_array.literals 中 ， 这 些 字 面 量 也 有 一 个 唯一 的 编号 ， 所 以 执行 的 过 程 实际 
就 是 根据 各 指令 调用 不 同 的 C 函 数 ， 然 后 根据 变量 、 字 面 量 、 临 时 变量 的 编号 对 这 
些 值 进行 处 理 加 工 。 


我 们 首先 看 下 zend_op_array 的 结构 ， 明 确 几 个 关键 信息 ， 然 后 再 看 下 ast 编 译 为 
Zend_op_array 的 过 程 。 
3.1.2.1 zend_op_array 数 据 结构 


PHP 主 脚本 会 生成 一 个 zend_op_array， 每 个 function 也 会 编译 为 独立 的 
zend_op_array， 所 以 从 二 进 制程 序 的 角度 看 Zend_op_array 包 含 着 当前 作用 域 下 的 
所 有 堆栈 信息 ， 函 数 调 用 实际 就 是 不 同 zend_op_array 间 的 切换 。 





zend_op 
zend_op_array 


gd Zend op *opcodes 
$a = 4; [C Compile > 
$b = $a + 3; A zval *literals 


zend_string **vars 


<?php 








a 
a b 


struct _zend op array { 
//common 是 疼 通 函数 或 类 成 员 方 法 对 应 的 0pcodes 快 速 访问 时 使 用 的 字段 ， 后 面 
分 析 PHP 函 数 实现 的 时 候 会 详细 讲 


3.1.2 拍 SS: 语 法 树 编译 汤 充 程 


uint32_t *refcount 
uint32_t this_var; 


uaints2 t last; 
//0pcode 指 令 数 组 
zend_op *opcodes; 


//PHP 代 码 里 定义 的 变量 数 : 0p_type 为 ITS_CV 的 变量 ， 不 含 IS_TMP_VAR、IS _- 
VAR 的 

// 编 译 前 此 值 为 0， 然 后 发 现 一 个 新 变量 这 个 和 值 就 加 1 

int Last var: 

// 临 时 变量 数 :0p_type 为 TS_TMP_VAR、IS_ VAR 的 变量 

uames i 

//PHP 变 量 名 数组 

zend_string **vars; // 这 个 数组 在 ast 编 译 期 间 配 合 last_var 用 来 确定 各 
个 变量 的 编号 ， 非 常 重要 的 一 步 操作 


// 静 态 变 量 符号 表 : 通 过 static 声 明 的 
HashTable *static variables,; 


// 字 面 量 数量 

int last_literal; 

// 字 面 量 (常量 ) 数 组 ， 这 些 都 是 在 PHP 代 码 定 义 的 一 些 值 
zval *literals; 


运行 时 缓存 数组 大 小 
int cache_size; 
/运行 时 缓存 ， 主 要 用 于 缓存 一 些 znode_op 以 便于 快速 获取 数据 ， 后 面 单独 介绍 


void **run time Cache: 


void *reserved[ZEND_MAX_RESERVED_RESOURCES ] ， 
}; 


Zend_op_array.opcodes 指 向 指令 列表 ， 具 体 每 条 指令 的 结构 如 下 


struct zend op { 
const void *handler; // 指 令 执行 handler 
znode_op op1; // 操 作 数 1 
znode_op op2; // 操 作 数 2 
znode_op result: / /返回 和 值 
uint32_t extended value 
uint32_t lineno; 
zend_uchar opcode; //opcode 指 邻 
zend_uchar op1 type; // 操 作 数 





zend_uchar op2_type; // 探 作 数 2 闫 型 
zend_uchar result Cvpe: / /返回 值 关 型 
}; 
// 操 作 数 结构 
typedef union _znode op { 
Un St constant; 
uint32_t var; 
UNNES E num; 
HEES opline num: /* Needs to be signed */ 
Uime 22t jmp_offset; 


} znode_op; 


opcode 各 字段 含义 下 面 展 开 说 明 。 


3.1.2.1.1 handler 


handler 为 每 条 opcode 对 应 的 C 语 言 编 写 的 处 理 过 程 ， 所 有 opcode 对 应 的 处 理 过 程 
定义 在 zend_vm_def.h 中 ， 值 得 注意 的 是 这 个 文件 并 不 是 编译 时 用 到 的 ， 因 为 
Gage 处 理 过 程 有 三 种 不 同 的 提供 形式 : CALL ` SWITCH ` GOTO ， 默 认 方 式 
X CALL ， 是 什么 意思 呢 ? 


每 个 opcode 都 代表 了 一 些 特定 的 处 理 操作 ， 这 个 东西 怎么 提供 呢 ? 一 种 是 把 每 种 
opcode 负 责 的 工作 封装 成 一 个 function， 然 后 执行 ege ， 这 就 是 CALL 模 
式 的 工作 方式 ; 另外 一 种 是 把 所 有 opcode 的 处 理 方式 通过 C 语 言 里 面 的 label 标 签 区 
分 开 ， 然 后 执行 器 执行 的 时 候 goto 到 相应 的 位 置 处 理 ， ere 式 的 工作 方 
式 ; 最 后 还 有 一 种 方式 是 把 所 有 的 处 理 方 式 写 到 一 个 switch 下 ， 然 后 通过 case 不 同 
的 opcode 执 行 具体 的 操作 ， 这 就 是 SWITCH 模式 的 工作 方式 。 


假设 opcode 数 组 是 这 个 样子 : 


int op_array[] = { 
opcode_1, 
opcode_2, 
opcode_3, 


}; 


各 模式 下 的 工作 过 程 类 似 这 样 : 


//CALL 模 式 
void opcode 1 handler() {...} 


void opcode 2 handler() {...} 


void execute(int []op_array) 


{ 
void *opcode_handler_list[] = {&opcode 1 handler, &opcode 2_ 
handler, ...}; 


while(1){ 
void handler = opcode_handler_list[op_array[i]]; 
handler(); //call handler 


i++; 
} 
} 
//G0TO 模 式 
void execute(int [lop array) 
{ 
while(1){ 
goto opcode_xx_handler_label; 
} 


opcode_1_handler_label: 


opcode_2_handler_label: 


//SWITCH 模 式 
void execute(int []op_array) 
{ 
while(1){ 
switch(op_array[i]){ 
case opcode_1: 


case opcode_2: 


i++ 


三 种 模式 效率 是 不 同 的 ，GOTO 最 快 ， 怎 么 选择 其 它 模式 呢 ?下载 PHP 源 码 后 不 要 
直接 编译 ，Zend 目 录 下 有 个 文件 : zend_vm_gen.php ， 在 编译 PHP 前 执 

行 : php zend_vm_gen.php --with-vm-kind=CALL|SWITCH|GOTO ， 这 个 脚本 将 
重新 生 

成 : zend_vm_opcodes.h ` zend_vm_opcodes.c ` zend_vm_execute.h 三 个 
文件 覆盖 原来 的 ， 然 后 再 编译 PHP 即 可 。 


后 面 分 析 的 过 程 使 用 的 都 是 默认 模式 CALL ， 也 就 是 opcode 对 应 的 handler 为 一 个 
函数 指针 ， 编 译 时 opcode 对 应 的 handler 是 如 何 根据 opcode 索 引 到 的 呢 ? 


opcode 的 数值 各 不 相同 ， 同 时 可 以 根据 两 个 zend_op 的 类 型 设置 不 同 的 处 理 
handler ， 因 此 每 个 opcode 指 令 最 多 有 20 个 (25 去 掉 重 复 的 5 个 ) 对 应 的 处 理 
handler， 所 有 的 handler 按 照 opcode 数 值 的 顺序 定义 在 一 个 大 数组 

中 : zend_opcode_handlers ， 每 25 个 为 同一 个 opcode， 如 果 对 应 的 op_type 类 型 
handler 则 可 以 设置 为 空 : 


//zend_vm_execute.h 
void zend_init_opcodes_handlers(void) 


{ 
static const void *labels[] = { 
ZEND_NOP_SPEC_HANDLER, 
ZEND_NOP_SPEC_HANDLER, 
Te 
zend_opcode_handlers = labels; 
} 


索引 的 萌 法 : 


//zend_vm_execute.h 
static const void *zend_ vm get opcode handler(zend uchar opcode, 
const zend_op* op) 
{ 
// 因 为 0p_type 为 2 的 倍数 ， 所 以 这 里 做 了 下 转化 ， 转 成 了 0-4 
static const int zend_vm_decode[] = { 


_UNUSED_CODE, /* 0 i 
ONST CODE /* 1 = IS_CONST SEH 
TMP CODE, /* 2 = IS_TMP_VAR */ 
_UNUSED_CODE, /* 3 GE 
MAR CODE, /* 4 = IS_VAR A 
_UNUSED_CODE, /* 5 KE 
 UNUSED CODE, /* 6 ph 
_UNUSED CODE, /* 7 SE 
 UNUSED CODE, /* 8 = IS UNUSED */ 
_UNUSED_ CODE, /* 9 SE 
 UNUSED CODE, /* 10 2 
_UNUSED_CODE, /* 11 Es 
 UNUSED CODE, /* 12 E 
 UNUSED CODE, /* 13 SE 
 UNUSED CODE, /* 14 
_UNUSED_CODE， /* 15 7 
_CV_CODE /* 16 = IS_CV A 


}; 
// 根 据 op1_type、op2_type、opcode 得 到 对 应 的 handler 
return zend_ opcode handlers[opcode * 25 + zend vm decode 


[op->op1_ type] * 5 + zend vm decode[op->op2_ Cvpell: 
} 


ZEND_API void zend vm sert opcode handler(zend_ op" op) 


{ 

// 设 置 Zend_op 的 handler， 这 个 操作 是 在 编译 期 间 完 成 

op->handler = zend vm ger _ opcode handler(zend user opcodes[o 
p->opcode], op); 
} 


#define _CONST CODE 0 
#define _TMP_CODE all 
#define _VAR_CODE 2 
#define _UNUSED_CODE 3 
#define _CV_CODE 4 


Es 
3.1.2.1.2 操作 数 (znode_op) 


操作 数 类 型 实际 就 是 个 32 位 整形 ， 它 主要 用 于 存储 一 些 变量 的 索引 位 置 、 数 值 记 录 


等 等 。 


typedef union _znode_op { 


uanmts2at constant; 

HEI var; 

Unnts2 E num; 

Un opline num; /* Needs to be signed */ 
HOESER jmp_offset; 


} znode_op; 


每 条 opcode 都 有 两 个 操作 数 (不 一 定 都 用 到 )， 操 作 数 记录 着 当前 指令 的 关键 信息 ， 
可 以 用 于 变量 的 存储 、 访 问 ， 比 如 赋值 语句 : "$a = 45;", 两 个 操作 数 分 别 记 

录 "$a"、"45" 的 存储 位 置 ， 执 行 时 根据 op2 取 到 值 "45"， 然 后 赋值 给 "$a"， 而 "$a" 的 
op1 获 取 到 。 当 然 操 作 数 并 不 是 全 部 这 么 用 的 ， 上 面 只 是 赋值 时 候 的 情 
况 ， 其 它 操作 会 有 不 同 的 用 法 ， 如 函数 调用 时 的 传 参 ，op1 记 录 的 就 是 传递 的 参数 
Se LE > Op2 记 录 的 是 参数 的 存储 位 置 ，result 记 录 的 是 函数 接收 参数 的 存储 位 
置 。 


3.1.2.1.3 操作 数 类 型 (op_type) 


每 个 操作 都 有 5 种 不 同 的 类 型 : 


#define IS_CONST (1<<0) fal 
#define IS_TMP_VAR (1<<1) /2 
#define IS_VAR (1<<2) 4 
#define IS_UNUSED (1<<3) 3 
#define IS_CV (1<<4) 16 


IS_CONST : 字面 量 ， 编 译 时 就 可 确定 且 不 会 改变 的 值 ， 比 如 :$a = "hello~" > 
其 中 字符 串 "hello~" 就 是 常量 

IS_TMP_VAR : 临时 变量 ， 比 如 : $a = "hello~" .time()， 其 中 "hello~" . 
time() 的 值 类 型 就 是 IS_ TMP_VAR， 再 比如 :$a = "123" + $b， "123" + 

$b 的 结果 类 型 也 是 IS_ TMP _VAR， 从 这 两 个 例子 可 以 猜测 ， 临 时 变量 多 是 执 
行 期 间 其 它 类 型 组 合 现 生 成 的 一 个 中 间 值 ， 由 于 它 是 现 生成 的 ， 所 以 把 
IS_TMP_VAR 赋 值 给 |IS_CV 变 量 时 不 会 增加 其 引用 计数 

IS_VAR : PHP 变 量 ， 这 个 很 容易 认为 是 PHP 脚 本 里 的 变量 ， 其 实 不 是 ， 这 里 
PHP 变 量 的 含义 可 以 这 样 理解 : PHP 变 量 是 没有 显 式 的 在 PHP 脚 本 中 定义 的 ， 
不 是 直接 在 代码 通过 $var_name 定义 的 。 这 个 类 型 最 常见 的 例子 是 PHP 郊 数 
的 返回 值 ， 再 如 $a[0] 数组 这 种 ， 它 取出 的 值 也 是 IS_VAR ， 再 比 

如 $$a 这 种 

IS_UNUSED : 表示 操作 数 没有 用 

IS_CV : PHP 脚 本 变量 ， 即 脚本 里 通过 $var_name 定义 的 变量 ， 这 些 变量 是 
编译 阶段 确定 的 ， 所 以 是 compile variable ， 


result_type 除了 上 面 几 种 类 型 外 还 有 一 种 类 型 EXT_TYPE_UNUSED (1<<5) ， 
返回 值 没有 使 用 时 会 用 到 ， 这 个 跟 IS_UNUSED 的 区 别 是 : IS_UNUSED 表示 本 操 
作 返 回 值 没 有 意义 (也 可 简单 的 认为 没有 返回 值 )， 而 EXT_TYPE_UNUSED 的 含义 是 
返回 值 ， 但 是 没有 用 到 ， 比 如 通 数 返回 值 没 有 接收 。 


3.1.2.1.4 字面 量 、 变 量 的 存储 


我 们 先 想 一 下 C 程 序 是 如 何 读 写字 面 量 、 变 量 的 。 


#include <stdio.h> 


int main() 


{ 


char *name = "pangudashu"; 


printf("%s\n", name); 


Seitert: os, 


RTA č ëlname T EERE > m"pangudashu" r kE RER > A 2"name"% 


名 分 配 在 哪 呢 ? 


实际 上 C 里 面 是 不 会 存 变 量 名 称 的 ， 编 译 的 过 程 会 将 变量 名 替换 为 偏 移 量 
T: ebp - 偏 移 量 或 esp + 偏 移 量 ， 将 上 面 的 代码 转 为 汇编 : 


, LCH: 


.String "pangudashu" 


„text 

.globl 

. type 
main: 

. LFBO: 
pushq 
movq 
subq 
movq 
movq 
movq 
call 
movl 
leave 


main 
main, @function 


%rbp 

%rsp, %rbp 

$16, %rsp 
$.LCO, -8(%rbp) 
-8(%rbp), %rax 
%rax, %rdi 

puts 

$0, %eax 


可 以 看 到 movq $.LCO, -8(%rbp) ， 而 -8(%rbp) 就 是 name 变 量 。 


虽然 PHP 代 码 不 会 直接 编译 为 机 器 码 ， 但 编译 、 执 行 的 设计 跟 C 程 序 是 一 致 的 ， 也 
有 常量 区 、 变 量 也 通过 偏 移 量 访问 、 也 有 虚拟 的 执行 栈 。 


PHP C 


内 存 映射 (mmap) 





在 编译 时 就 可 确定 且 不 会 改变 的 量 称 为 字面 量 ， 也 称 作 常量 (IS_CONST)， 这 些 值 
在 编译 阶段 就 已 经 分 配 zval， 保 存在 zend_op_array->literals 数组 中 (对 应 c 程 
序 的 常量 存储 区 )， 访 问 时 通过 _ zend op_array->literals + 偏 移 量 读 取 ， 举 
个 例子 : 


<?php 
$a = 56; 
$b = "hello"; 


56 通过 (zval*)(_zend_op_array->literals + 0) 取 到 ， hello 29 
过 (zval*)(_zend_op_array->literals + 16) 取 到 ,具体 变量 的 读 写 操作 将 在 
执行 阶段 详细 分 析 ， 这 里 只 分 析 编 译 阶段 的 操作 。 


3.1.2.2 AST->zend_op_array 


上 面 我 们 介绍 了 zend_ op_array 结 构 ， 接 下 来 我 们 回 过 头 去 看 下 语法 解析 
(zendparse()) 之 后 的 流程 : 


ZEND_API zend op array *compile file(zend file handle *file band 
le, int type) 
{ 


zend_op_array *op_array = NULL; // 编 译 出 的 opcodes 


if (open file for_scanning(file_handle)==FAILURE) {// 文 件 打 开 


I 


} else { 
zend_bool original_in_compilation = CG(in_compilation); 
CG(in_compilation) = 1; 


CG(ast) = NULL; 
CG(ast_arena) = zend_arena_create(1024 * 32); 
if (!zendparse()) { // 语 法 解析 
zval retval zyv; 
zend file Context original file _context; // 保 存 原 来 的 z 
end_file context 
zend_oparray_context original oparray_context; / /保生 
原来 的 Zend_oparray_context， 编译 期 间 用 于 记录 当前 Zend_op_array 的 opcode 
Ss、Vars 等 数组 的 总 大 小 
zend_op_array *original active op array = CG(active_ 
op_array); 
op_array = emalloc(sizeof(zend_op_array)); / /分配 zend 
_0p_array 结 构 
init_op_array(op_array, ZEND USER FUNCTION, INITIAL_ 
OP_ARRAY_SIZE);// 初 始 化 op_array 
CG(active_op_array) = op_array; // 将 当前 正在 编译 op_arr 
ay 指 向 当前 
ZVAL_LONG(&retval zv, 1); 


if (zend ast process) { 
zend_ast_ process(CG(ast)); 


zend_file context_ begin(&original file context); // 
初始 化 CG(file_context) 

zend_oparray_context_begin(&original oparray_context 
); // 初 始 化 CG(context) 

zend_compile top_stmt(CG(ast)); //AST->zend_op_array 
编译 流程 


zend_emit_final return(&retval zv); // 设 置 最 后 的 返回 什 





op_array->line_ start = 1; 
op_array->line_end = CG(zend_lineno); 


pass_two(op_array); 
zend_oparray_context_end(&original_oparray_context); 
zend_file_context_end(&original_file_context); 


CG(active op array) = original_active_op_array; 


return op_array; 


compile_file() 操 作 中 有 几 个 保存 原来 值 的 操作 ， 这 是 因为 这 个 函数 在 PHP 脚 本 执行 
中 并 不 会 只 执行 一 次 ， 主 脚本 执行 时 会 第 一 次 调用 ， 而 include、require 也 会 调用 ， 
所 以 需要 先 保 存 当 前 值 ， 然 后 执行 完 再 还 原 回 去 。 


AST->zendoparray 编 译 是 在 ”zend_compile_top_stmt() 中 完成 ， 这 个 函数 是 总 入 
口 ， 会 被 多 次 递归 调用 : 


Z/Zend Compte 
void zend compile top stmtizend aset *ast) 


{ 
if (!ast) { 
ESP 


if (ast->kind == ZEND AGT STT LIST) { A/B ZARIA 


Zend aset List *list = zend_ast_get_list(ast); 
unnes Ee EE E 
Tor (i = 0; i < list->children; ++i) { 
zend_compile top_ stmt(1ist->child[i]);//1list 各 child 语 


名 相互 独立 ， 北 归 编 译 


} 


return; 


// 各 语句 编译 入 口 


zend_compile stmt(ast); 


if (ast->kind != ZEND AST NAMESPACE && ast->kind != ZEND AST 
_HALT_COMPILER) { 


Zend verifv namespace( ); 
} 
//function、class 两 种 情况 的 处 理 ， 非 常 关键 的 一 步 操 作 ， 后 面 分 析 郊 数 、 类 
实现 的 章节 再 详细 分 析 
if (ast->kind == ZEND AST_FUNC_ DECL || ast->kind == ZEND AGT 
_CLASS) { 


CG(zend_lineno) = ((zend_ast_decl *) ast)->end lineno; 
zend_do_early_binding(); // 很 重要 11 


} 


H Ee 


首先 从 AST 的 根 节 点 开始 编译 ， 根 节点 类 型 为 ZEND_ AST_STMT_LIST， 这 个 类 型 
表示 当前 节点 下 有 多 个 独立 的 节点 ， 各 child 都 是 独立 的 语句 生成 的 节点 ， 所 以 依次 
编译 即 可 ， 直 到 到 达 有 效 节点 位 置 ( 非 ZJEND_AST_STMT_LIST 节 点 )， 然 后 调 

用 zend_compile_stmt 编译 当前 节点 : 


void zend_compile_stmt(zend_ast *ast ) 
{ 


CG(zend_lineno) = ast->lineno; 


switch (ast->kind) { 
case XXX : 


break; 
case ZEND_AST_ECHO: 


zend_compile_echo(ast); 
break; 


default: 
{ 


znode result; 


zend_compile expr(&result, ast); 
zend_do free(&result); 


if (FC(declarables).ticks && !zend is unticked_ stmt(ast)) { 
zend_emit_ tick(); 


主要 根据 不 同 的 节点 类 型 (kind) 作 不 同 的 处 理 ， 我 们 不 会 把 每 种 类 型 的 处 理 都 讲 一 
遍 ， 这 里 还 是 根据 上 一 节 最 后 的 例子 挑 几 个 看 下 具体 的 处 理 过 程 。 


$a = 123; 
$b 二 ES 


echo $a, bn: 


zendparse() 阶 段 生 成 的 AST : 











CG(ast) 





i 


kind:ZEND_AST_STMT_LIST 




















kind:ZEND_AST_STMT_LIST 


5 s© Son, 
人 
AnI ZEND SET A kind:ZEND_AST_ECHO | |kind:ZEND_AST_ECHO 
















kind:ZEND_AST_ASSIGN 









































S kind:ZEND_AST_ZVAL 
kind:ZEND_AST_VAR 123(IS LONG) kind:ZEND_AST_VAR “hi~” (IS_STRING) e Y 
3 A 
O O H 2 
E ba £ 
kind:ZEND_AST_VAR el 





kind:ZEND_AST_ZVAL 


Kind:ZEND_AST_ZVAL 
“b” (IS_STRING) 


“a” (IS_STRING) 


chilalo J] 











kind:ZEND_AST_ZVAL 
“a” (IS_STRING) 








kind:ZEND_AST_ZVAL 
“b” (IS_STRING) 


下 面 的 过 程 比 较 复 杂 ， 有 的 函数 会 多 次 递归 调用 ， 我 们 根据 例子 一 步 步 去 看 下 ， 如 
果 你 对 PHP 各 个 语法 实现 比较 熟悉 再 去 看 整个 AST 的 编译 过 程 就 会 比较 轻松 。 





(1)、 首先 从 根 节点 开始 ， 有 3 个 child， 第 一 个 节点 类 型 为 
ZEND_AST_ASSIGN : zend_compile_stmt() 中 走 到 default 分 支 





(2)、ZEND _AST_ASSIGN 类 型 由 zend_compile_expr(O) 处 理 : 


void zend_compile_expr(znode "result, zeng ast *ast) 
d 
CG(zend_lineno) = zend ast oer lineno(ast); 
switch (ast->kind) { 
case ZEND_AST_ZVAL: 
ZVAL_COPY(&result->u.constant, zend_ast_get_zval(ast 
)); 
result->op_type = IS_CONST; 
return; 
case ZEND_AST_VAR: 
zend_compile_var(result, ast, BP_VAR_R); 
return; 
case ZEND_AST_ASSIGN: 
zend_compile_assign(result, ast); 
return; 


继续 进入 zend_compile_assign() : cvoid zend_compile_assign(znode 
result, zend_ast ast) { zend_ast var ast = ast->child[0]; /变量 名 zend ast 
expr_ast = ast->child[1];/ 变 量 值 表 达 式 


znode var_node, expr_node; 
zend_op *opline; 
uint32_t offset; 


if (is_this_fetch(var_ast)) { // 检 查 变量 名 是 否 为 this， 变 量 名 不 能 是 thi 
S 

zend_error_noreturn(E_COMPILE_ERROR, "Cannot re-assign $this 
"); 
} 


// 比 如 这 样 写 : my_function() = 123; 即 : 将 函数 的 返回 值 作 为 变量 名 将 报错 
zend_ensure_writable_variable(var_ast); 


switch (var_ast->kind) { 
case ZEND_AST_VAR : 
case ZEND_AST_STATIC_PROP: 
offset = zend_delayed_compile_begin(); 
zend -delayed_ compile_var(&var_node, var_ast, BP MAR W); 
// 生 成 变量 名 的 Zznode， 这 个 结构 只 在 这 个 地 方 临 时 用 ， 所 以 直接 分 配 在 stack 上 
zend_compile expr(&expr_node，expr_ast); // 递 归 编 译 变量 值 表 
达 式 ， 最 终 需 要 得 到 一 个 ZEND_AST_ZVAL 的 节点 
zend_delayed_compile_end(offset); 
zend_emit_op(result, ZEND_ASSIGN, &var_node, &expr_node) 
; // 生 成 一 条 op 
return; 


> 这 个 地 方 主 要 有 三 步 关 键 操作 : 


Sib: _ 变量 赋值 操作 有 两 部 分 : 变量 名 、 变 量 值 ， 所 以 首先 是 针对 变量 名 的 
操作 ， 介 绍 zend SE EE ， 变量 的 读 写 都 是 根据 
这 个 编号 操作 的 ， 这 个 编号 最 早 就 是 这 一 步 生成 的 。 


! [](../img/zend_lookup_cv.png) 


>> 中 间 过 程 我 们 不 再 细 看 ， 这 里 重点 看 下 变量 编号 的 过 程 ， 这 个 过 程 比较 简单 ， 每 发 
现 一 个 变量 就 遍历 zend_op_array,Vvars 数 组 ， 看 此 变量 是 否 已 经 保存 ， 没 有 保存 的 
话 则 存 入 Vars， 然 后 后 续 变 量 的 使 用 都 是 用 的 这 个 变量 在 数组 中 的 下 标 ， 比 如 第 一 次 定 
义 的 时 候 : `$a = 123: ` 将 $a 编号 为 0， 然 后 "echo $a; 再 次 使 用 时 会 遍历 Vars 
， 发现 已 经 存在 ， 直 接 用 其 下 标 操作 $a。 
Ge 
static int Lookup Cvizend op_array *op_array, Zen String" name) 
{ 

int I= ọỌ; 

zend_ulong hash_value = zend_string_hash_val(name); 


// 遍 历 op_array.VvVars 检 查 此 变量 是 否 已 存在 
while (i < op_array->last_var) { 
if (ZSTR_VAL(op_array->vars[i]) == ZSTR_VAL(name) || 
(ZSTR_H(op_array->vars[i]) == hash_value && 
ZSTR_LEN(op_array->vars[i]) == ZSTR_LEN(name) & 


memcmp(ZSTR_VAL(op_array->vars[i]), ZSTR_VAL(na 


me), ZSTR_LEN(name)) == 0)) { 
zend_string_release(name); 
return (int)(zend_intptr_t)ZEND_CALL_VAR_NUM(NULL, i 


); 


ww 


// 这 是 一 个 新 变量 
i = op_array->last_var; 
op_array->last_var++; 
if (op_array->last_var > CG(context).vars_size) { 
CG(context).vars_size += 16; /* FIXME */ 
op_array->vars = erealloc(op_array->vars, CG(context).va 
rs_size * sizeof(zend_string*));// 扩 容 vars 


} 


op_array->vars[i] = zend new interned_ string(name); 
return (int)(zend_intptr_t)ZEND CALL_VAR NUM(NULL， i); // 传 N 
ULL 时 返回 的 是 96 + i*sizeof(zval) 


3. E 2 拍 Z TE 法 树 编译 流 流入 


注意 : 这 里 变量 的 编号 从 0、1、2、3... 依 次 递增 的 ， Ao 
是 直接 用 的 这 个 下 标 ， 而 是 转化 成 了 内 存 偏 移 量 offset， 这 

是 ZEND_CALL_VAR NUM 宏 处 理 的 ， 所 以 变量 Se ` 112 > 

128... 递 增 的 ， 这 个 96 是 根据 zend_execute _ data 大 小 设 定 的 (不 同 的 平台 

下 对 应 的 值 可 能 不 同 )， 下 一 篇 介绍 zend 执 行 流程 时 会 详细 介绍 这 个 结构 。 


DEI 


define ZEND CALL FRAME SLOT \ 


((int)((ZEND_MM_ALIGNED_SIZE(sizeof(zend_execute_data)) + 
ZEND_MM_ALIGNED_SIZE(sizeof(zval)) - 1) / ZEND_MM_ALIGNE 
D_SIZE(sizeof(zval)))) 


define ZEND_CALL_VAR_NUM(call, n) \ 


(((zval*)(call)) + (ZEND_CALL_FRAME_SLOT + ((int)(n)))) 


90 


>> Säi: 编译 变量 值 表 达 式 ， 再 次 调用 zend_compile_expr() 编 译 ， 示 例 
中 的 情况 比较 简单 ，expr_ast.kind 为 ZEND_AST_ZVAL : 
BCE 
void zend_compile_expr(znode "result, zend ast *ast) 
{ 
switch (ast->kind) { 
case ZEND_AST_ZVAL: 

ZVAL_COPY(&result->u.constant, zend_ast_get_zval(ast 
) ); // 将 变量 值 复制 到 znode.u.constant 中 

result->op_type = IS_CONST; // 类 型 为 TS_CONST， 这 种 valu 
e 后 面 将 会 保存 在 zend_op_array .literals 中 

return; 


第 3 步 : 上 面 两 步 已 经 分 别 生 成 了 变量 赋值 的 op1、op2， 下 面 就 是 根据 这 
俩 值 生成 opcode 的 过 程 。 cstatic zend_op zend_emit_op(znode result, 
zend_uchar opcode, znode op1, znode op2) { zend_op *opline = 

get_next_op(CG(active_op_array)); /当前 zend_ op _array 下 生成 一 条 新 的 


指令 opline->opcode = opcode; 


// 将 op1、op2 内 容 拷 贝 到 zend_op 中 ， 设 置 0p_type 
// 如 果 znode.op_type == IS_CONST， 则 会 将 znode.u.contstant 值 转移 到 zen 
d_op_array.literals 中 
if (op1 == NULL) { 
SET_UNUSED(opline->op1); 
} else { 
SET_NODE(opline->opi, op1); 


if (op2 == NULL) { 
SET_UNUSED(opline->op2); 

} else { 
SET_NODE(opline->op2, op2); 


// 如 果 此 指令 有 返回 值 则 想 变量 那样 为 返 编号 (后 面 分 配 局 部 变量 时 将 根据 这 个 编 
号 索引 ) 
if (result) / 

zend_make_var_result(result, opline); 


} 


return opline; 


} 


static inline void zend_make_var_result(znode result, zend_op opline) { opline- 
>result_type = IS_VAR; // 返 回 值 类 型 固定 为 IS_VAR opline->result.var = 
get_temporary_variable(CG(active_op_array)); // 为 返回 值 编 个 号 ， 这 个 编号 记 在 
临时 变量 T 上 ， 上 面 介绍 Zend_op_array 时 说 过 T、|ast var 的 区 别 

GET NODE(result, opline->result); } 


>> 到 这 我 们 示例 中 的 第 1 条 赋值 语 名 就算 编 译 完了 ， 第 2 条 同样 是 赋值 ， 过 程 与 上 面相 
同 ， 我 们 直接 看 最 好 一 条 输出 的 语句。 


> (3)、 echo 语句 的 编译 ;echo $a,$b; ` 实 际 从 编译 后 的 语法 树 就 可 以 看 出 
> 一 次 echo 多 个 也 被 编译 为 多 次 echo 了 ， 所 以 示例 中 的 用 法 与 : “echo $a; echo $ 
b ` 等 价 ， 我 们 只 分 析 其 中 一 个 就 可 以 了 。 


! [](../img/zend_ast_echo.png) 


> `zend_compile_stmt()` 中 首先 发 现 节点 类 型 是 `*:ZEND_AST_STMT_LIST`， 然 
后 调用 `:zend_compile_stmt_1list() .分 别 编译 child， 具 体 的 流程 如 下 图 所 示 : 


![](../img/zend_ast_echo_p.png) 
> 最 后 生成 "zend_op ` 的 过 程 : 
Ge 


void zend_compile echoizend ast *ast ) 


{ 
zend_op *opline; 
zend_ast *expr_ast = ast->child[0]; 


znode expr_node; 
zend_compile_expr(&expr_node, expr_ast); 


opline = zend emit op(NULL, ZEND_ECHO, &expr_node, NULL);// 
生成 1 条 新 的 opcode 
opline->extended_value = go: 


最 终 zend_compile_top_stmt() 编译 完成 后 整个 编译 流程 基本 是 完成 
了 ， cG(active_op_array) 结构 如 下 图 所 示 ， 但 是 后 面 还 有 一 个 处 
理 pass_two() ° 


3.1.2 抽象 语法 树 编 译 流程 




















0 2 3 
CG(active_op_array) zend_op zend_op zend_op zend_op 
[handler = NULL | handler = NULL handler = NULL handler = NULL 
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int last = 4 [_result.var=0 ||[ resultvar=1 ||[ resultvar ||[ resultvar | 















zend_op *opcodes 












opcode = 
ZEND_ASSIGN 


opcode = 
ZEND_ASSIGN 


opcode = 
ZEND_ECHO 


opcode = 
ZEND_ECHO 





opl_type = IS_CV 


op1_type = IS_CV 






























0 1 int last var=2 op1_type = IS_CV op1_type = IS_CV 
zend_string | zend_string ~ op2_type = op2_type = op2_type = op2_type = 
“a” “p” zend_string **vars IS_CONST IS_CONST IS_UNUSED IS_UNUSED 
result_type = result_type = 
IS_VAR | IS_VAR | 














result_type = result_type = 
IS_UNUSED IS_UNUSED 


EXT_TYPE_UNUSED 


EXT_TYPE_UNUSED 













zval *literals 
int last_literal = 2 


123(IS_LONG) | “hi~” (IS_STRING) 











值 ， 所 以 需要 为 
这 种 值 记 在 T | 


赋值 语句 有 返 反 
它们 分 配 空间 ， 











ZEND_API int pass_two(zend_ op_array *op_array ) 
{ 
zend_op *opline, *end; 
if (!ZEND_USER_CODE(op_array->type)) { 
recurn o; 


// 重 置 一 些 CG(context ) 的 值 ， 暂 且 忽略 


opline = op_array->opcodes; 
end = opline + op_array->last; 
while (opline < end) { 
switch(opline->opcode){ 
// 这 里 对 一 些 操作 进行 针对 性 的 处 理 ， 后 面 有 遇 到 的 情况 我 们 再 看 


// 如 果 是 TS_CONST 会 将 数组 下 标 转化 为 内 存 偏 移 量 ， 与 TS_CV 那 种 处 理 方 
式 相 同 
// 所 以 这 里 实际 就 是 将 0QO、1、2... 转 为 为 6、32、48... ( 即 : 编 号 *Siz 
eof(zval ) ) 
if (opline->op1 type IS_CONST) { 
ZEND_PASS_TWO_UPDATE_CONSTANT(op_array, opline->op1) 


} else if (opline->op1_type & (IS_VAR|IS_TMP_VAR)) { 
// 上面 作 相同 的 处 理 ， 不 同 的 是 这 里 的 起 始 值 是 接着 IS_CV 的 


94 


opline->op1.var = (uint32 t)(zend_intptr_t)ZEND_CALL 
_VAR_NUM(NULL, op_array->last_var + opline->op1.var); 


EECH 
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if (opline->op2 type == IS_CONST) { 
ZEND_PASS_TWO_UPDATE_CONSTANT(op_array, opline->op2) 


} else if (opline->op2 type & (IS_VAR|IS_TMP_VAR)) { 
opline->op2.var = (uint32_t)(zend_intptr_t)ZEND_CALL 
_VAR_NUM(NULL, op_array->last_var + opline->op2.var); 
// 返 回 值 与 0p1/ 2 相同 处 理 
TIF EE >result_type & (IS_VAR|IS_TMP_VAR)) { 
opline->result.var = (uint32_t)(zend_intptr_t)ZEND_C 
ALL_VAR_NUM(NULL, op_array->last_var + opline->result.var); 


} 

VUS a 此 Op Code 的 J4 {handler 
ZEND_VM_SET_OPCODE_HANDLER(opline); 
opline++; 


op_array->fn_flags |= ZEND_ACC_DONE_PASS_TWO; 
Eer 





抛 开 特 殊 opcode 的 处 理 ， pass_two() 主要 有 两 个 重要 操作 : 


e (1) 将 IS_CONST 、IS_VAR、IS_TMP_VAR 类 型 的 操作 数 、 返 回 值 转化 为 内 存 
偏 移 量 ， 与 上 面 提 到 的 IS_CV 变 量 的 处 理 一 样 ， 其 中 IS_CONST 类 型 起 始 值 为 
0， 然 后 按照 编号 依次 递增 sizeof(zva)， 而 IS_VAR、IS_TMP _VAR 唯 一 的 不 同 
时 它 的 初始 值 接着 IS_CV 的 ， 简 单 的 讲 就 是 先 安排 PHP 变 量 的 ， 然 后 接着 才 是 

各 条 语句 的 中 间 值 、 返 回 值 

e (2)5 NG 就 是 设置 各 指令 的 处 理 handler， 这 个 前 面 《3.1.2.1.1 

handler》 已 经 介绍 过 其 索引 规则 


经 过 pass_two() 处 理 后 opcodes 的 样子 : 


3.1.2 抽象 语法 树 编译 流程 


ZEND_ASSIGN_SPEC_CV_CONST_HANDLER 


handler = 
opl.var = 96 
op2.var=0 
result.var = 128 
opcode = 
ZEND ASSIGN 
opl type = IS_CV 


op2_type = 
IS_CONST 


result_type = 
IS_VAR | 
EXT_TYPE_UNUSED 
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handler = Oxff64 
opl.var = 112 
op2.var = 16 
result.var = 144 
opcode = 
ZEND ASSIGN 
Opl_type = IS_CV 


op2_type = 
IS_CONST 


result_type = 
IS_VAR | 
EXT_TYPE_UNUSED 


ZEND_ECHO_SPEC_CV_HANDLER 


ZEND_ECHO 
opl_type = 1S_CV 
op2_type = 
IS UNUSED 


result_type = 
IS_UNUSED 


ZEND ECHO 
Opl_type=15_CV 


Dp2_type = 
IS_UNUSED 


result_type = 
IS_UNUSED 





到 这 里 整个 PHP 编 译 阶 段 就 算 全 部 完成 了 ， 最 终 编 译 的 结果 就 是 zend_op_array， 
其 中 最 核心 的 操作 就 是 AST 的 编译 了 ， 有 兴趣 的 可 以 多 写 几 个 例子 去 看 下 不 同 节 点 


类 型 的 处 理 方式 。 


另外 ， 编 译 阶 段 很 关键 的 一 个 操作 就 是 确定 了 各 个 变量 、 中 间 值 、 临 时 值 、 返 回 


值 、 字 面 量 的 内 存 编号 ， 这 个 地 方 非常 重要 


后 面 介 绍 执行 流程 时 也 会 用 到 。 
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3.2 函数 实现 


函数 ， 通 俗 的 讲 就 是 一 组 操作 的 集合 ， 给 予 特定 的 输入 将 对 应 特定 的 输出 。 


3.2.1 用 户 自 定义 函数 的 实现 
用 户 自 定义 函数 是 指 我 们 在 PHP 脚 本 通过 function 定 义 的 函数 : 


function my_func(){ 


汇编 中 函数 对 应 的 是 一 组 独立 的 汇编 指令 ， 然 后 通过 call 指 令 实现 函数 的 调用 。 前 
面 已 经 说 过 PHP 编 译 的 结果 是 opcode 数 组 ， 与 汇编 指令 对 应 。PHP 用 户 自 定义 函数 
的 实现 就 是 将 函数 编译 为 独立 的 opcode 数 组 ， 调 用 时 分 配 独立 的 执行 栈 依次 执行 
opcode， 所 以 自 定义 函数 对 于 zend 而 言 并 没有 什么 特别 之 处 ， 只 是 将 opcode 进 行 
了 打包 封装 。PHP 脚 本 中 函数 之 外 的 指令 ,整个 可 以 认为 是 一 个 函数 (或 者 理解 为 
main Zi Së Ai, 


Zuneteromnmaani( KE 


$a = 23.: 
echo $a; 


3.2.1.1 函数 的 存储 结构 


下 面具 体 看 下 PHP 中 浆 数 的 结构 : 


typedef union ` zend function Zend function: 


//zend_compile.h 
union _zend_function { 
zend_uchar type; /* MUST be the first element of this str 


Whey 六 


SENUCEA 
zend_uchar type; /* never used */ 
zend_uchar arg_flags[3]; /* bitset of arg_info.pass_by_r 
eference */ 
uint32_t fn_flags; 
zend_string *function_name; 
zend_class_entry *scope; // 成 员 方法 所 属 类 ， 面 向 对 象 实现 中 用 到 
union _zend_function *prototype; 


ei 


uint32_t num_args; // 参 数 数量 
uint32_t required_num_args; // 必 传 参 数 数量 
zend_arg_info *arg_info; // 参 数 信息 


Re o 


} common; 
zend_op_array op_array; // 函 数 实际 编译 为 普通 的 zend_op_array 
zend_internal_function internal_function; 
J; 
这 是 一 个 union， 因 为 PHP 中 函数 除了 用 户 自 定义 函数 还 有 一 种 : 内 部 函数 ， 内 部 


函数 是 通过 扩展 或 者 内 核 提 供 的 C 函 数 ， 比 如 time、 ES 等 等 ， 内 部 函数 稍 后 
再 作 分 析 。 


内 部 函数 主要 用 到 internal function ， 而 用 户 自 定义 函数 编译 完 就 是 一 个 普通 

的 opcode 数组 ， 用 的 是 op_array (注意 : op_array、internal function Æ k A 49 
个 结构 ， 而 不 是 一 个 单独 的 指针 ) ， 除 了 这 两 个 上 面 还 有 一 

个 type 跟 common ， 这 俩 是 做 什么 用 的 呢 ? 


经 过 比较 发 现 zend_op_array 与 zend_internal function 结构 的 起 始 位 置 都 
有 common 中 的 几 个 成 员 ， 如 果 你 对 C 的 内 存 比较 了 解 应 该 会 马上 想到 它们 的 用 
法 ， 实 际 common Becher op_array ` internal function 的 header， 不 
管 是 什么 哪 种 函数 都 可 以 通过 zend_function.common.xx 快速 访问 

到 zend_function.zend op_array.xx 及 zend_function.zend_internal Fun 


ction.xx ， 下 面 几 个 ， 


type 同 理 ， 可 以 直接 通过 


zend_function. type 取 


到 zend_function.op_array.type 及 zend_function.internal_function. ty 


pe °? 


zend_internal_function 


void 
(*handler)(INTERNAL_FUNCTION 
_PARAMETERS) 





struct _zend_module_entry 
*module 





函数 是 在 编译 阶段 确定 的 ， 那 么 





zend_uchar type 





zend_op_array op_array 


e e S 
internal_function H 








它们 存在 哪 呢 ? 


zend_op_array 





uint32_t *refcount 
uint32_t this_var 


uint32_t last 


zend_op *opcodes 





int last_var 





zend_string **vars 





HashTable *static_variables 





uint32_t line_start 
上 








zend_string *filename 





uint32_t line_end 


int last_literal 


zval *literals 





在 PHP 脚 本 的 生命 周期 中 有 一 个 非常 重要 的 值 executor_globals ( 非 ZTS 下 )， 类 


型 是 struct _zend_executor een 
据 ， 如 果 你 写 过 PHP 扩 展 一 定 用 到 过 这 个 宏 ， 


， 它 记录 着 PHP 生 命 周期 中 所 有 的 数 


这 个 宏 实 际 就 是 


对 executor_globals 的 操作 : define EG(v) (executor_globals.v) 


EG(function_table) 是 一 个 哈 希 表 ， 记 录 的 就 是 PHP 中 所 有 的 辑 数 


PHP 在 编译 阶段 将 用 户 自 定义 的 函数 编译 为 独立 的 opcodes， 保 存 

在 EG(function_table) 中 ， 调 用 时 重新 分 配 新 的 zend_execute _data( 相 当 于 运 
行 栈 )， 然 后 执行 函数 的 opcodes， 调 用 完 再 还 原 到 旧 的 zend_execute_data ， 继 

续 执行 ， 关 于 zend 引 敬 execute 阶 段 后 面 会 详细 分 析 。 


3.2.1.2 函数 参数 


HAARE AARLE AAA AA E E R Eg o’ Ea RADA aig 
时 候 提 供 局 部 变量 会 有 一 个 单独 的 编号 ， 而 函数 的 参数 与 之 相同 ， 参 数 名 称 也 在 
zend_op_array.vars 中 ， 编 号 首先 是 从 参数 开始 的 ， 所 以 按照 参数 顺序 其 编号 依次 
为 0、1、2...( 转 化 为 相对 内 存 偏 移 量 就 是 96、112、128...)， 然 后 函数 调用 时 首先 会 
在 调用 位 置 将 参数 的 value 复 制 到 各 参数 各 自 的 位 置 ， 详 细 的 传 参 过 程 我 们 在 执行 一 
篇 再 作 说 明 。 


比如 : 
function my_function($a, $b = "aa"){ 
$ret = $a . $b; 
return $ret; 
} 


编译 完 后 各 变量 的 内 存 偏 移 量 编号 : 


$a => 96 
$b eeh AC 
$ret => 128 


与 下 面 这 么 写 一 样 : 


function my function! 
$a = NULL; 
$b = "aa"; 
$ret = $a . $b; 
return $ret; 


另外 参数 还 有 其 它 的 信息 ， 这 些 信息 通过 end arg into 结构 记录 : 


typedef struct _zend_arg_info { 
zend_string *name; //% žr% 
zend_string *class_name; 
zend_uchar type_hint; // 显 式 声 明 的 参数 
zend_uchar pass_by_reference; // 是 否 引 用 传 参 ， 参 数 前 加 & 的 这 个 值 就 
SH 
zend_bool allow null: // 是 否 允 许 为 NULL， 注意 : 这 个 值 并 不 是 用 来 表示 
参数 是 否 为 必 传 的 
zend_bool is_variadic; // 是 否 为 可 变 参 数 ， 即 .. .用 法 ， 与 golang 的 用 
Za, HOM A neti on my fune (Sa Soia 
} zend_arg_info; 


类 型 ， ee Zparam 1) 


每 个 参数 都 有 一 个 上 面 的 结构 ， 所 有 参数 的 结构 保存 

在 zend_op_array.arg_info 数组 中 ， 这 里 有 一 个 地 方 需要 注 

意 zend_op_array->arg_info 数组 保存 的 并 不 全 是 输入 参数 ， 如 果 有 函数 声明 了 
返回 值 类 型 则 也 会 为 它 创 建 一 个 zend_arg info ， 这 个 结构 在 arg_info 数 组 的 第 
一 个 位 置 ， 这 种 情 ei zend_op_array->arg_info 指向 的 实际 是 数组 的 第 二 个 位 
置 ， 返 回 值 的 结构 通过 zend_op_array->arg_info[-1] 读 取 ， 这 里 先 单 独 看 下 
编译 时 的 处 理 : 


// 函 数 参 数 的 编译 
void EE *ast Zend ast "return type as 
E 
{ 
zend_ast_list *list = zend_ast_get_list(ast); 
Ve EY Tp 
zend_op_array *op_array = CG(active op array); 
zend_arg_info *arg_infos; 


if (return_type_ast) { 
// 声 明了 返回 值 类 型 : function my_func():array{...} 
HS tzend arg info 
arg_infos = safe_emalloc(sizeof(zend_arg_info), list->ch 
ildren + 1, 0); 


arg_infos->allow_null = 0; 


/Varg_infos 指 向 了 下 一 个 位 置 

arg_infos++; 

op_array->fn_flags |= ZEND_ACC_HAS_RETURN_TYPE; 
} else { 

// 没 有 声明 返回 值 类 型 

if (list->children == 0) { 

return; 
} 
arg_infos = safe emalloc(sizeof(zend arg info), list->ch 
ildren, 0); 

} 


op_array->num_args = list->children; 
// 声 明了 返回 值 的 情况 下 arg_infos 已 经 指向 了 数组 的 第 二 个 元 素 
op_array->arg_info = arg_infos; 


3.2.1.3 函数 的 编译 


我 们 在 上 一 篇 文章 介绍 过 PHP 代 码 的 编译 过 程 ， 主 要 是 PHP->AST->Opcodes 的 转 
化 ， 上 面 也 说 了 函数 其 实 就 是 将 一 组 PHP 代 码 编译 为 单独 的 opcodes， 兄 数 的 调用 
就 是 不 同 opcodes 间 的 切换 ， 所 以 函数 的 编译 过 程 与 普通 PHP 代 码 基本 一 致 ， 只 是 
会 有 一 些 特 殊 操作 ， 我 们 以 3.2.1.2 开 始 那个 例子 简单 看 下 编译 过 程 。 


普通 函数 的 语法 解析 规则 : 


function_ declaration_statement: 
function returns_ref T_STRING backup_doc Comment '(' paramet 
er_list ')' return_type 
'{' inner_statement_list '}' 
{ $$ = zend_ast_create_decl(ZEND_AST_FUNC_DECL, $2, $1, $ 


zend_ast_get_str($3), $6, NULL, $10, $8); } 


E RI 
规则 主要 由 五 部 分 组 成 : 


e returns_ref: 是 否 返回 引用 ， 在 函数 名 前 加 &， 比 如 function Biest A 
© T_STRING: 函数 名 

e。parameter list: 参数 列表 

e return_type: 返回 值 类 型 

e Inner Statement list: 驾 数 内 部 代码 


函数 生成 的 抽象 语法 树 根 节 点 类 型 是 zend_ast _decl|， 所 有 函数 相关 的 信息 都 记录 
在 这 个 节点 中 (除了 函数 外 类 也 是 用 的 这 个 ) : 


typedef struct _zend_ast_decl { 

zend_ast_kind kind; /7/ 有 函数 就 是 ZEND_AST_FUNC_DECL， 类 则 是 ZEND_AS 
T_ CLASS 

zend_ast_attr attr; /* Unused - for structure compatibility 
sy 

uint32_t start_lineno; // 函 数 起 始 行 

uint32_t end Lineng: // 元 数 结束 行 

uint32_t flags;  ”// 其 中 一 个 标识 位 用 来 标识 返回 值 是 否 为 引用 ， 是 则 为 ZE 
ND_ACC_RETURN_REFERENCE 

unsigned char "lex pos: 

zend_string "doc Comment: 

zend_string "name //eë 3 

zend_ast *child[4]; //child 有 4 个 子 节点 ， 分 别 是 : 参数 列表 节点 、use 
列表 节点 、 郊 数 内 部 表达 式 节点 、 返 回 值 类 型 节点 
} zend aset decil; 


上 面 的 例子 最 终生 成 的 语法 树 : 


kind:ZEND_AST_STMT_LIST 


ey 









zend_ast_decl kind:ZEND_AST_FUNC_DECL 
name: Á Sig 


flags: 是 否 返 回 引 用 


返回 值 类 型 
NULL 


kind:ZEND_AST_ASSIGN | |kind:ZEND_AST_RETURN 





每 个 param 节 点 有 3 个 child: 
child[0]: 参数 类 型 
child[1]: 参数 名 称 
child[2]: 默认 值 


上 有 具体 编译 为 opcodes 的 过 程 在 zend_compile func decil() 中 : 
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void zend compile func decl(znode "result, zend ast *ast) 
{ 

zend_ast decl *decl = (zend ast decl *) ast; 

zend_ast *params_ast = decl->child[0]; /7/ 人 参数 列表 

zend_ast *uses ast = decl->child[1]; //use 列 表 

zend_ast *stmt_ast = decl->child[2]; // 部 数 内 部 

zend_ast *return_ type ast = decl->child[3]; // 和 返回 值 立 型 

zend bool is_method = decl->kind == ZEND_AST_METHOD; // 走 否 为 
成 员 函数 


// 这 里 保存 当前 正在 编译 的 zend_op_array : CG(active_op_array)， 然 后 
重新 为 函数 生成 一 个 新 的 zend_op_array， 

// 函 数 编译 完 再 将 四 的 还 原 

zend_op_array *orig op_array = CG(active_op_array); 

zend_op_array *op_array = zend arena alloc(&CG(arena), sizeof 
(zend_op_array)); // 新 分 配 zend_op_array 


if (is method) { 
zend_bool has body = stmt ast != NULL; 
zend_begin_method_ decl(op array, decl->name, has_body); 
} else { 
zend_begin_func E op_array, decl); // 注 意 这 里 会 
在 当前 zend_ op_array (不 是 新 生成 的 函数 那个 ) 生成 一 条 ZEND_DECLARE_FUNCTI 
ON 的 opcode 
} 


CcG(active op array) = op_array; 


zend_compile_params(params_ast, return_type_ast); // 编 译 参 数 
if (uses ast) { 
zend_compile closure uses(uses ast); 


} 
zend_compile_stmt(stmt_ast); / /编译 函数 内 部 语法 


pass_two(CG(active_op_array)); 


CG(active op_array) = orig_op_array; // 还 原 之 前 的 




















编译 过 程 主要 有 这 么 几 个 处 理 : 


(1) 保存 当前 正在 编译 的 zendopamay， 新 分 配 一 个 结构 ， 因 为 每 个 函数 、 
include 的 文件 都 对 应 独立 的 一 个 Zend_op_array， 通 过 CG(active_op_array) 记 
录 当 前 编译 所 属 Zend_op_array， 所 以 开始 编译 函数 时 就 需要 将 这 个 值 保存 下 
来 ， 等 到 函数 编译 完成 再 还 原 回 去 ; 另外 还 有 一 个 关键 操 

作 : zend_begin_ func_decl ， 这 里 会 在 当前 Zend_op_array (不 是 新 生成 的 
函数 那个 ) 生成 一 条 ” ZEND DECLARE FUNCTION 的 opcode， 也 就 是 函 
数 声 明 操 作 。 


$a = 123; // 当 前 为 CG6(active op_array) = zend_op_array_1， 编译 到 这 
时 此 opcode 加 到 zend_op_array_1 


// 新 分 配 一 个 Zend_op_array_2， 并 将 当前 CG(active op_array ) 保 存 到 origin 
_op_array ’ 
// 然 后 将 CG(active_op_array)=zend_ op_array_ 2 
function test(){ 
$b = 234; // 编 译 到 zend_op_array_2 
}// 遂 数 编译 结束 ， 将 CG(active op_array) = origin op_array; 切 回 zend_0 
p_array_1 
$c = 345; // 编 译 到 zend_op_array_1 
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3.2 函数 实现 


td 
别 保 存在 参数 节 


(2) 编译 参数 列表 ， 函 数 的 参数 我 们 在 上 一 小 节 已 经 介绍 ， 员 
组 成 : 参数 类 型 (可 选 )、 参 数 名 、 默 认 值 (可 选 )， 这 三 部 分 
的 三 个 child 节 点 中 ， 编 译 参 数 的 过 程 有 两 个 关键 操作 : 


SÉ 


操作 1 : 为 每 个 参数 编号 


操作 2 : 每 个 参数 生成 一 条 opcode， 如 果 是 可 变 参 数 其 
opcode=ZEND_RECV_VARIADIC， 如 果 有 默认 值 则 为 
ZEND RECH NIT: ZGu3ZEND RECH 


上 面 的 例子 中 $a 编 号 为 96，$b 为 112， 同 时 生成 了 两 条 opcode : 

ZEND_RECV、ZEND_RECV_INIT， 调 用 的 时 候 会 根据 具体 传 参数 量 跳 过 部 
分 opcode， 比 如 这 个 函数 我 们 这 么 调用 my_function($a) 则 ZEND_RECV 这 

条 opcode 就 直接 跳 过 了 ， 然 后 执行 ZEND_RECV_INIT 将 默认 值 写 到 112 位 置 ， 
具体 的 编译 过 程 在 zend_compile params() 中 ， 上 面 已 经 介绍 过 。 


参数 默认 值 的 保存 与 普通 变量 赋值 相同 : $a = array() ， array() 保存 在 
literals， 参 数 的 默认 值 也 是 如 此 。 


(3) 编译 函数 内 部 语法 ， 这 个 跟 普通 PHP 代 码 编译 过 程 无 异 。 
(4) pass_two()， 上 一 篇 介绍 过 ， 不 再 资 述 。 


最 终生 成 两 个 Zend op_array : 





zend_op_array 


ZEND DECLARE FUNCTION 








my_function 


zend_op_array 


ZEND_RECV_INIT 


总 体 来 看 ，PHP 在 逐 行 编译 时 发 现 一 个 function 则 生成 一 条 
ZEND_DECLARE FUNCTION 的 opcode， 然 后 调 到 函数 中 编译 函数 ， 编 译 完 再 跳 
回去 继续 下 面 的 编译 ， 这 里 多 次 提 到 (ZEND DECLARE FUNCTION 这 个 opcode 是 
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因为 在 函数 编译 结束 后 还 有 一 个 重要 操作 : zend_do_early_binding() ， 前 面 我 
们 说 过 总 的 编译 入 口 在 zend_compile top_stmt() ， 这 里 会 对 每 条 语法 逐条 编 
译 ， 而 函数 、 类 在 编译 完成 后 还 有 后 续 的 操作 : 


void zend compile top stmt(zend ast *ast) 


1 


if (ast->kind == ZEND_AST_STMT_LIST) { 
for (i = 0; i < list->children; ++i) { 
zend_compile_top_stmt(list->child[i]); 


zend_compile_stmt(ast); // 编 译 各 条 语法 ， 函 数 也 是 在 这 里 编译 完成 


if (ast->kind == ZEND_AST_FUNC_DECL || ast->kind == ZEND_AST 
_CLASS) { 
CG(zend_lineno) = ((zend_ast_decl *) ast)->end lineno; 
zend_do_early_binding(); 


zend_do_early_binding() 核心 工作 就 是 function ` class% 2] 
CG(function_table) ` CG(class_table)? ， 加 入 成 功 了 就 直接 把 
ZEND_DECLARE_FUNCTION 这 条 opcode 干 掉 了 ， 加 入 失败 的 话 则 保留 ， 这 个 相 
当 于 有 一 部 分 opcode 在 『 编 译 时 J 提前 执行 了 ， 这 也 是 为 什么 PHP 中 可 以 先 调用 
函数 再 声明 函数 的 原因 ， 比 如 : 


Za — 1324: 
echo my_function($a); 


function my_function($a){ 


实际 原始 的 opcode 以 及 执行 顺序 


ZEND_ASSIGN 


E 1 
2 | zEND_DECLARE_FUNCTION ~ 


| 
K ZEND ECHO 


类 的 情况 也 是 如 此 ， 后 面 我们 再 作 说 明 。 


3.2.1.4 匿名 函数 


E% Až (Anonymous functions) ， 也 叫 闭 包 函 数 (closures) ， 人 允许 临 时 创建 一 
个 没有 指定 名 称 的 函数 。 最 经 常用 作 回 调 函 数 (callback) 参数 的 值 。 当 然 ， 也 有 
其 它 应 用 的 情况 。 


官网 的 示例 : 


$greet = function($name) 


{ 
printf("Hello %s\r\n", $name); 


ka 

$greet('world'); 

$greet('PHP'); 
这 里 提 匿 名 兄 数 只 是 想 说 明 编 译 郊 数 时 那个 use 的 用 法 ; 
匿名 函数 可 以 从 父 作 用 域 中 继承 变量 。 任 何 此 类 变量 都 应 该 用 use 语言 结构 传递 
进去 。 

$message = 'hello'; 


$example = function () use ($message) { 
var_dump($message); 

J; 

$example(); 


3.2.2 内 部 函数 


上 一 节 已 经 提 过 ， 内 部 函数 指 的 是 由 内 核 、 扩 展 提供 的 C 语 言 编 写 的 function， 这 类 
函数 不 需要 经 历 opcode 的 编译 过 程 ， 所 以 效率 上 要 高 于 PHP 用 户 自 定 义 的 函数 ， 调 
用 时 与 普通 的 C 程 序 没 有 差异 。 


Zend3 引 擎 中 定义 了 很 多 内 部 函数 供用 户 在 PHP 中 使 用 ， 比 如 ` define ` defined ` 
strlen、method_exists、class_exists、function exists...... 等 等 ， 除 了 Zend 引 擎 中 
定义 的 内 部 函数 ，PHP 扩 展 中 也 提供 了 大 量 内 部 函数 ， 我 们 也 可 以 灵活 的 通过 扩展 


自行 定制 。 


3.2.2.1 内 部 函数 结构 


上 一 节 介 绍 zend_function 为 union， 其 中 internal function 就 是 内 部 函数 
用 到 的 ， 具 体 结 构 : 


zenauEcomnplaeaan 
typedef struct _zend_internal_function / 
/* Common elements */ 
zend_uchar type; 
zend_uchar arg_flags[3]; /* bitset of arg_info.pass_by_refer 
ence Y/Y 
uints2 t fnaflagsy, 
zend_string* function_name; 
zend_class_entry *scope; 
zend_function *prototype; 
uint32_t num_args; 
uint32_t required_num_args; 
zend_internal_arg_info *arg_info; 
/* END of common elements "4 


void (*handler)(INTERNAL_FUNCTION_PARAMETERS); // 况 数 指 针 ， 展 
2 ”Vonda( nandlery (zendmexecuteadatan Zexvecute data, zval "return 
_value) 

struct _zend_module_entry *module; 

void *reserved[ZEND_MAX_RESERVED_RESOURCES ] ; 
} zend_internal_function; 


zend_internal_function 头 部 是 一 个 与 zend_op_array 完全 相同 的 common 
结构 。 


下 面 看 下 如 何 定义 一 个 内 部 函数 。 


3.2.2.2 定义 与 注册 


内 部 函数 与 用 户 自 定义 函 数 冲 突 ， 用 户 无 法 在 PHP 代 码 中 履 盖 内 部 函数 ， 执 行 PHP 
脚本 时 会 提示 error 错 误 。 


内 部 函数 的 定义 非常 简单 ， 我 们 只 需要 创建 一 个 普通 的 C 函 数 ， 然 后 创建 一 

个 zend_internal_function 结构 添加 到 EG(function_table) (也 可 能 是 
CG(functiontable), 取 决 于 在 哪 一 阶段 注册 ) 中 即 可 使 用 ， 内 部 函数 通常 情况 下 是 
在 php_module_startup 阶 段 注册 的 ， 这 里 之 所 以 说 通常 是 按照 标准 的 扩展 定义 ， 除 
了 扩展 提供 的 方式 我 们 可 以 在 任何 阶段 自由 定义 内 部 函数 ， 当 然 并 不 建议 这 样 做 。 
下 面 我 们 先 不 讨论 扩展 标准 的 定义 方式 ， 我 们 先 自己 尝试 下 如 何 注册 一 个 内 部 函 

数 。 


根据 zend_internal_function 的 结构 我 们 知道 需要 定义 一 个 handler : 


void qp_test(INTERNAL_FUNCTION_PARAMETERS) 
{ 


printf(“call internal function "op test'\n"); 


然后 创建 一 个 内 部 函数 结构 (我 们 在 扩展 PHP_MINIT_FUNCTION 方 法 中 注册 ， 也 可 
以 在 其 他 位 置 ) : 


PHP_MINIT_FUNCTION(XXXXXX) 


{ 
zend_string *lowercase_name; 
zend_function *reg_function; 
数 名 转 小 写 ， 因 为 Dhp 的 函数 不 区 GES 
lowercase name = zend_string_alloc(7, 1); 
zend_str_tolower_copy(ZSTR_VAL(lowercase_name), "qp_test", 7 
); 
lowercase_name = zend_new_interned_string(lowercase_name); 
reg_function = malloc(sizeof(zend_internal_function)); 
reg_function->internal_function.type = ZEND_INTERNAL_FUNCTIO 
N; dE HEJ AH AA 
reg_function->internal_function.function_name = lowercase_na 
me; 
reg_function->internal_function.handler = qp_test; 
zend_hash_add Rh SE lowercase name, reg Tu 
nction); // 注 册 到 CG(functic able SS 中 
} 


Zë Sieg, Sir KR: wi 


qp_test(); 


结果 输出 call internal function 'qp_test' 


这 样 一 个 内 部 函数 就 定义 完成 了 。 这 里 有 一 个 地 方 需要 注意 的 我 们 把 这 个 函数 注册 
到 CG(function_table) 中 去 了 ， 而 不 是 EG(function_table) ， 这 是 因为 

在 php_request_startup 阶段 会 把 CG(function_table) 赋值 给 

EG(function table) 。 


上 面 的 过 程 看 着 比较 简单 ， 但 是 在 实际 应 用 中 不 要 这 样 做 ，PHP 提 供给 我 们 一 套 标 
准 的 定义 方式 ， 接 下 来 看 下 如 何在 扩展 中 按照 官方 方式 提供 一 个 内 部 函数 。 


首先 也 是 定义 C 函 数 ， 这 个 通过 PHP_FUNCTION ZEL: 


PHP_FUNCTION(qp_test) 
{ 


printf (“call internal function '‘qp_test"\n"); 


然后 是 注册 过 程 ， 这 个 只 需要 我 们 将 所 有 的 函数 数组 添加 到 扩展 结 
构 zend_module_entry.functions 即 可 ， 扩 展 加 载 过程 中 会 自动 进行 函数 注册 
( 见 1.2 节 )， 不 需要 我 们 干预 : 


const zend function entrv xxxx_functions[] = { 
PHP_FE(qp_test, NULL) 
PHP_FE_END 

J; 


zend_module_entry xxxx_module_entry = { 

STANDARD_MODULE_HEADER, 

"扩展 名 称 ""， 

xxxx_functions, 

PHP_MINIT(timeout), 

PHP_MSHUTDOWN ( timeout), 

PHP_RINIT(timeout), /* Replace with NULL if there's noth 
Ing Co do et regest Start "Z4/ 

PHP_RSHUTDOWN (timeout), /* Replace with NULL if there's noth 
ane CO Co at ECESE end Z/ 

PHP_MINFO(timeout), 

PHP_TIMEOUT_VERSION, 

STANDARD_MODULE_PROPERTIES 


}; 


关于 更 多 扩展 中 函数 相关 的 用 法 会 在 后 面 扩 展开 发 一 章 中 详细 介绍 ， 这 里 不 再 展 
H œ 


3.3 Zend 引 擎 执行 


Zend 引 擎 主要 包含 两 个 核心 部 分 : 编译 、 执 行 : 


"Si | M 
| 


前 面 分 析 了 Zend 的 编译 过 程 以 及 PHP 用 户 函 数 的 实现 


Zend 引 苟 


执行 过 程 。 


3.1 数据 结构 


程 中 有 几 个 重要 的 数据 结构 ， 先 看 下 这 


3.3.1.1 opcode 


， 接 下 来 分 析 下 Zend 引 擎 的 


个 结构 。 


opcode 是 将 PHP 代 码 编译 产生 的 Zend 虚 拟 机 可 识别 的 指令 ，php7 共 有 173 个 
opcode， 定 义 在 zend_vm_opcodes.h 中 ，PHP 中 的 所 有 语法 实现 都 是 由 这 些 
opcode 组 成 的 。 


struct 


_zend_op { 


const void *handler; // 对 应 执行 的 C 语 


= Se Functionäk 2 


A 


// 操 作 数 1 
// 操 作 数 2 
// 返 回 值 


znode_op op: 
znode_op op2; 
znode_ op result; 
uint32_t extended value: 
uint32_t lineno; 

//opcode 指 令 
zend_uchar op1 type; // 操 作 数 1 


zend_uchar opcode; 
类 型 
zend_uchar op2_type; // 操 作 数 2 类 型 
zend_uchar result_type; // 述 回 值 


言 function， 即 每 


$J 
Zoe 


条 opcode 都 有 


3.3.1.2 zend_op_array 


zend_op_array 是 Zend 引 擎 执行 阶段 的 输入 ， 整 个 执行 阶段 的 操作 都 是 围绕 着 这 
个 结构 ， 关 于 其 具体 结构 前 面 我 们 已 经 讲 过 了 。 


zend op_array 


execute_data->opline — 


ZEND_ASSIGN 


vm executor 





这 里 再 重复 说 下 zend_op_array 几 个 核心 组 成 部 分 : 


e opcode 指 令 ` 即 PHP 代 码 具 体 对 应 的 处 理 动作 ， 与 二 进 制程 序 中 的 代码 段 对 


字面 量 存 储 : PHP 代 码 中 定义 的 一 些 变量 初始 值 、 调 用 的 函数 名 称 、 类 名 称 、 
常量 名 称 等 等 称 之 为 字面 量 ， 这 些 值 用 于 执行 时 初始 化 变量 、 函 数 调 用 等 等 
变量 分 配 情 况 : 与 字面 量 类 似 ， 这 里 指 的 是 当前 opcodes 定 义 了 多 少 变量 、 临 
时 变量 ， 每 个 变量 都 有 一 个 对 应 的 编号 ， 执 行 初 始 化 按照 总 的 数目 一 次 性 分 配 
Zval， 使 用 时 也 完全 按照 编号 索引 ， 而 不 是 根据 变量 名 索引 


3.3.1.3 zend_executor globals 


zend_executor_globals executor_globals 是 PHP 整 个 生命 周期 中 最 主要 的 一 
个 结构 ， 是 一 个 全 局 变量 ， 在 main 执 行 前 分 配 ( 非 ZTS 下 )， 直 到 PHP 退 出 ， 它 记录 
着 当前 请 求全 部 的 信息 ， 经 常见 到 的 一 个 宏 EG 操作 的 就 是 这 个 结构 。 


/Z/zend Compile 

#ifndef ZTS 

ZEND_API zend_compiler_globals compiler_globals; 
ZEND_API zend_executor_globals executor_globals; 
#endif 


//zend_globals_macros.h 
# define EG(v) (executor_globals.v) 


zend_executor_globals 结构 非常 大 ， 定 义 在 zend_globals.h 中 ， 比 较 重 要 
的 几 个 字段 含义 如 下 图 所 示 : 











Emain O 执行 前 分 配 zend_executor_globals PHP 全 局 变量 哈 希 
executor_globals Æ: GET, berg 
(EG) 
经 include 的 脚本 
zend_array Symbol table try-catch 保 存 的 
HashTable included les catch 足 转 位 置 





[ JMP_BUF *bailout 





全 部 已 编译 的 function 蛤 希 表 ， 包 
括 内 部 函数 、 用 户 自 定义 函数 ， 函 
HashTable *function_table 数 调用 将 从 这 里 查找 


ini HashTable *class_tabl 
zend-vm. stack initi) el ée 全 部 已 编译 的 class 哈 希 表 ，nev 

















GES HashTable *zend_constants class 时 从 此 出 查找 
zval "vm stack top 常量 符号 表 
zval "wm stack end 





EE geg 运行 栈 内 存 池 ; 就 是 一 块 空白 的 内 存 ， 
Zë = 用 于 分 配 php 执 行 期 间 的 一 些 结构 


指向 当前 正在 执行 的 “运行 覆 人 
(zend execute data) ”， 国 数 调用 就 是 EE f 

分 配 一 个 新 的 zend_execute_data， 然 后 

将 EG (current_execute_data) 指 向 新 的 [zend_class_entry "scope | 

结构 继续 执行 ， 调 用 完毕 再 还 原 回 去 ， Hashtable sin sttzdeed 在 类 的 自动 加 载 过 程 中 会 用 到 

类 似 汇 编 call、ret 指 令 的 作用 一 











自动 加 载 回 调 函 数 ; __autoload( 


zend_function *autoload_func 





持久 化 符号 表 ，request 请 求 结束 后 不 释 
放 ， 可 以 跨 request 共 享 ， 在 
HashTable persistent_list php module shutdown 0 阶段 清理 


php. ini 配 置 项 EATS er 网 络 通信 应 用 中 的 长 连接 的 实现 就 可 以 
将 连接 存 到 这 里 维持 共享 





3.3.1.4 zend execute_data 


zend_execute_data 是 执行 过 程 中 最 核心 的 一 个 结构 ， 每 次 函数 的 调用 、 
include/require、eval 等 都 会 生成 一 个 新 的 结构 ， 它 表示 当前 的 作用 域 、 代 码 的 执行 
位 置 以 及 局 部 变量 的 分 配 等 等 ， 等 同 于 机 器 码 执 行 过 程 中 stack 的 角色 ， 后 面 分 析 具 
体 执行 流程 的 时 候 会 详细 分 析 其 作用 。 
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#define EX(element) ((execute data)->element) 


//zend_compile.h 
struct _zend_execute_data { 


const zend_op *opline; // 指 向 当前 执行 的 opcode， 初 始 时 指向 
zend_op_array 起 始 位 置 

zend_execute_data *call; /* current call 

GE 

zval *return_value; // 返 回 值 指针 

zend_function *func ， // 当 前 执行 的 函数 ( 非 函 数 调 用 
时 为 空 ) 

zval This; // 这 个 值 并 不 仅仅 是 面向 对 象 的 


this， 还 有 另外 两 个 值 也 通过 这 个 记录 call info + num_args， 分 别 存在 zval， 
u1.reserved ` zval.u2.num_args 
zend_class_entry *called_scope; // 当 前 cal1 的 类 
zend_execute_data  *prev_execute_data; // 函 数 调 用 时 指向 调用 位 置 
作用 空间 
zend_array *Symbol table: // 全 局 变量 符号 表 
#if ZEND_EX_USE_RUN_TIME_CACHE 
void **run_time_cache; /* cache op_array->ru 
n_time_cache */ 
#endif 
#if ZEND_EX_USE_LITERALS 
zval *literals;  // 字 面 量 数组 ， 与 func.op_array- 
>1Literals 相 同 
#endif 


Po 





zend evecute data 与 zend_op_array 的 关联 关系 : 


Zend op _array 


字面 量 literals opcode 指 令 








read/write 


zval 
CV 变 虽 
zval 
TMP, VAR E 


zval 


返回 值 





3.3.2 执行 流程 


Zend 的 executor 与 linux 二 进 制 程序 执行 的 过 程 是 非常 类 似 的 ， 在 C 程 序 执行 时 有 两 
个 寄存 器 ebp、esp 分 别 指向 当前 作用 栈 的 栈 顶 、 栈 底 ， 局 部 变量 全 部 分 配 在 当前 
栈 ， 有 函数 调用 、 返 回 通过 call 、 ret 指令 完成 ， 调 用 时 call 将 当前 执行 位 置 
压 入 栈 中 ， 返 回 时 rer 将 之 前 执行 位 置 出 栈 ， 跳 回 昌 的 位 置 继 续 执行 ， 在 Zend 
VM 中 zend_execute_data 就 扮演 了 这 两 个 角 

色 ， zend_execute_data.prev_execute_data 保存 的 是 调用 方 的 信息 ， 实 现 

了 call/ret > zend_execute_data 后 面 会 分 配额 外 的 内 存 空间 用 于 局 部 变量 
的 存储 ， 实 现 了 ebp/esp 的 作用 。 


注意 : 在 执行 前 分 配 内 存 时 并 不 仅仅 是 分 配 了 zend_execute data 大 小 的 空间 ， 
除了 sizeof(zend_execute_data) 外 还 会 额外 申请 一 块 空 间 ， 用 于 分 配 局 部 变 
量 、 临 时 (中 间 ) 变 量 等 ， 具 体 的 分 配 过 程 下 面 会 讲 到 。 


Zend 执 行 opcode 的 简略 过 程 : 


e step1: 为 当前 作用 域 分 配 一 块 内 存 ， 充 当 运 行 栈 ，zend_execute_data 结 构 、 
所 有 局 部 变量 、 中 间 变 量 等 等 都 在 此 内 存 上 分 配 
e Step2: 初始 化 全 局 变量 符号 表 ， 然 后 将 全 局 执行 位 置 指针 
EG(current_execute _ data) 指 向 step1 新 分 配 的 zend_execute data， 然 后 将 
zend_execute _data.opline 指 向 op_array 的 起 始 位 置 
e step3: 从 EX(opline) 开 始 调用 各 opcode 的 C 处 理 handler( 即 
_Zzend_op.handler)， 每 执行 完 一 条 opcode 将 EX(opline)++ 继续 执行 下 一 
条 ， 直 到 执行 完全 部 opcode， 函 数 /类 成 员 方法 调用 、if 的 执行 过 程 : 
o Step3.1: if 语 多 将 根据 条 件 的 成 立 与 否决 定 EX(opline) + offset 所 加 
的 偏 移 量 ， 实 现 跳 转 
o step3.2: 如 果 是 函数 调用 ， 则 首先 从 EG(function_table) 中 根据 
function_name 取 出 此 function 对 应 的 编译 完成 的 zend_op_array， 然 后 像 
step1 一 样 新 分 配 一 个 zend_execute data 结 构 ， 将 
EG(current_execute_data) 赋 值 给 新 结构 的 prev_execute_data ， 再 将 
EG(current_execute _ data) 指 向 新 的 zend_execute data， 最 后 从 新 
的 zend_execute_data.opline 开始 执行 ， 切 换 到 函数 内 部 ， 函 数 执行 
完 以 后 将 EG(current_execute_data) 重 新 指向 EX(prev_execute datai: ZS 
放 分 配 的 运行 栈 ， 销 毁 局 部 变量 ， 继 续 从 原来 函数 调用 的 位 置 执行 
o Step3.3: 类 方法 的 调用 与 函数 基本 相同 ， 后 面 分 析 对 象 实现 的 时 候 再 详细 
分 析 
e step4: 全 部 opcode 执 行 完成 后 将 step1 分 配 的 内 存 释 放 ， 这 个 过 程 会 将 所 有 的 
局 部 变量 "销毁 "， 执 行 阶段 结束 


3.3 Zend 引 擎 执行 流程 


zend_execute_data 


zend_execute_data : 
*prev_execute_data e 
Zend evecute data 
Zend evecute data 
| 4.Ret | nd eecte a | zend_execute_data 
1.Call Te e 
"al 一 > const zend_op *opline 
zend_execute_data 
*call 
zend_function 


zend_function *func zeno top tartay : 
3.Ret zval This zend_op *opcodes | execute 


2.Call ; 
zend_class_entry p Y 
*called_scope 
zend_execute_data 

















*prev_execute_data 


zend_array 
*symbol table 









额外 内 存 空间 
用 于 分 配 局 部 变量 、 中 间 变 量 


zval tmp_var_1 


接 下 来 详细 看 下 整个 流程 。 


Zend 执 行 入 口 为 位 于 zend_vm_execute.h 文件 中 的 zend_execute() : 


120 


ZEND API void zend evecuteizend op array “op _ array，zval“return 
_value) 


d 


zend execute data *execute data: 


if (EG(exception) != NULL) { 
SE? 


// 分 配 zend_execute_data 
execute_data = zend_vm_stack_push_call_frame(ZEND_CALL_TOP_C 
ODE, 





(zend_function*)op_array, ©, zend_get_called_scope(E 
G(current_execute_data)), zend_get_this_object(EG(current_execut 
e_data))); 

if (EG(current_execute_data)) { 
execute_data->symbol_table = zend_rebuild_symbol_table() 


} else { 
execute_data->symbol_table = &EG(symbol_table); 

} 

EX(prev_execute_data) = EG(current_execute_data); //=> execu 
te_data->prev_execute_data = EG(current_execute_data); 

i_init_execute_data(execute_data, op_array, return_value); / 
/初始 化 execute_data 

zend_execute ex(execute_data); / /执行 opcode 

zend vm stack freecall frame(execute data); / /释放 execute_da 
ta: 销 毁 所 有 的 PHP 变 量 


} 





上 面 的 过 程 分 为 四 步 : 


(1) 分 配 stack 


由 zend_vm_stack_push_call_frame 函数 分 配 一 块 用 于 当前 作用 域 的 内 存 空 
闻 ， 返 回 结果 是 zend_execute_data 的 起 始 位 置 。 





//zend_execute.h 

static zend always inline zend execute data “zend vm stack push 
callemframe(luint 2 call info zend function fune, Uints2 t num 
Sargs ne) 

{ 


uint32_t used_stack = zend_vm_calc_used_stack(num_args, func 





E 


return zend vm stack pDusb call frame ex(used stack, call inf 





func, num_args, called_scope, object); 


首先 根据 zend_execute_data 、 当 前 zend_op_array 中 局 部 /临时 变量 数 计算 


需要 的 内 存 空间 : 


//zend_execute.h 
static zend always inline uint32_t zend vm calc used stack(uint3 





2 t num args, zend function FUNC) 
{ 

uint32_t used_stack = ZEND_CALL_FRAME_SLOT + num_args; // 内 部 
函数 只 用 这 么 多 ， 临 时 变量 是 编译 过 程 中 根据 PHP 的 代码 优化 出 的 值 ， 比 如 : "hi~",t 
ime()`， 而 在 内 部 函数 中 则 没有 这 种 情况 





if (EXPECTED(ZEND_USER_CODE(func->type))) { // 在 php 脚 本 中 写 的 f 
unction 
use stack += func->op_array.last var + func->op_array.T 
- MIN(func->op_array.num args, num args); 
} 


return Used_stack * sizeof(zval); 


//zend_compile.h 

#define ZEND_CALL_FRAME_SLOT \ 
((int)((ZEND_MM_ALIGNED_SIZE(sizeof(zend_execute_data)) + ZE 

ND_MM_ALIGNED_SIZE(sizeof(zval)) - 1) / ZEND_MM_ALIGNED_SIZE(siz 

eof (zval)))) 


回想 下 前 面 编译 阶段 zend_op_array 的 结果 ， 在 编译 过 程 中 已 经 确定 当前 作用 域 下 
有 多 少 个 局 部 变量 (func->op_array.last_var) dë 时 /中 间 / 无 用 变量 (func- 
>op_array.T)， 从 而 在 执行 之 初 就 将 他 们 全 部 分 配 完成 : 


elast var ` PHP 代 码 中 定义 的 变量 数 ，zend_ op.op{1|2} type = IS_CV 或 
result type& IS_CV 的 全 部 数量 

e T: 表示 用 到 的 临时 变量 、 无 用 变量 等 ，zend_op.op{1|2} type = 
IS_TMP_VARIIS_VAR 或 resulte_type & (IS_TMP_VARIIS_VAR) 的 全 部 数量 


比如 赋值 操作 : $a = 1234; ， 编 译 后 last_var = 1, T= 

1 > last_var 有 $a ， 这 里 为 什么 会 有 T ? 因为 赋值 语句 有 一 个 结果 返回 值 ， 
只 是 这 个 值 没 有 用 到 ， 假 如 这 么 用 结果 就 会 用 到 了 if(($a = 1234) == true) 
{...} ， 这 时 候 $a = 1234; 的 返回 结果 类 型 是 IS_ VAR ， 记 在 T 上。 


num_args 为 函数 调用 时 的 实际 传 入 参数 数量 ，func->op_array.num_args 为 
全 部 参数 数量 ， 所 以 MIN(func->op_array.num args，num_args) 等 

于 num_args ， 在 自 定义 函数 中 used_stack=ZEND_CALL ERANE SLOT + func- 
>op_array.last_var + func->op_array.T ， 而 在 调用 内 部 函数 时 则 只 需要 分 配 
实际 传 入 参数 的 空间 即 可 ， 内 部 函数 不 会 有 临时 变量 的 概念 。 


最 终 分 配 的 内 存 空间 如 下 图 : 


zend_execute_data 


last_var=2 
<?php T=3 


$a = time!(); 


$b = $a; 


` SÉ 
timel() 返 回 值 
$a =zvalT_ 1 返回 值 


这 里 实际 分 配 内 存 时 并 不 是 直接 malloc 的 ， 还 记得 上 面 EG 结 构 中 有 

个 vm stack 吗 ? 实 际 内 存 是 从 这 里 获取 的 ， 每 次 从 EG(vm_stack_top) 处 开始 
分 配 ， 分 配 完 再 将 此 指针 指向 EG(vm_stack_top) + used stack ， 这 里 不 再 对 
Vvm_stack 作 更 多 分 析 ， 更 下 层 实 际 就 是 Zend 的 内 存 池 (zend alloc.c)， 后 面 也 会 单 
独 分 析 。 





static zend_always_inline zend execute data *zend vm stack push 
call frame ex(uint32 t used stack, 9 ) 


{ 


zend_execute_data *call = (zend_execute_data*)EG(vm_stack_to 
p); 


// 当 前 Vm_stack 有 是 否 够 用 
if (UNEXPECTED(used_stack > (size_t)(((char*)EG(vm_stack_end 
)) - (char*)call))) { 
call = (zend_execute_data*)zend_vm_stack_extend(used_sta 
ck); // 新 开辟 一 块 vm_stack 


}else{ // 空 间 够 用 ， 直 接 分 配 
EG(vm_stack top) = (zval*)((char*)call + used stack); 


call->func = func; 


return call; 


(2) 初 始 化 zend_execute_data 


注意 ， 这 里 的 初始 化 是 整个 php 脚 本 最 初 的 那个 ， 并 不 是 指 函 数 调 用 时 的 ， 这 一 步 
的 操作 主要 是 设置 几 个 指针 : opline 、 call `œ return _ value ， 同 时 将 PHP 的 
全 局 变量 添加 到 EG(symbol_table) 中 去 : 


//zend_execute.c 
static zend_always_inline void 1 init execute data(zend_execute_ 
data *execute_data, zend_op_array *op_array, zval *return_value) 


{ 
EX(opline) = op_array->opcodes; 
EX(call) = NULL; 
EX(return_value) = return_value; 


if (UNEXPECTED(EX(symbol_table) != NULL)) { 


zend_attach_symbol_table(execute_data);// 将 全 局 变量 添加 到 EG 
(Symbol_table) 中 一 份 ， 因 为 此 处 的 execute_data 是 PHP 脚 本 最 初 的 那个 ， 不 是 fu 
nction 的 ， 所 以 所 有 的 变量 都 是 全 局 的 
}else{f // 这 个 分 支 的 情况 还 未 深入 分 析 ， 后 面 碰 到 再 补充 


zend_attach_symbol_table() 的 作用 是 把 当前 作用 域 下 的 变量 添加 到 
EG(symbol table) 哈 希 表 中 ， 也 就 是 全 局 变量 ， 函 数 中 通过 global 关 键 词 获取 的 全 
局 变量 正 是 在 此 时 添加 的 ，EG(symbol table) 中 的 值 问 接 的 指 
向 zend_execute_data 中 的 局 部 变量 ， 两 者 的 结构 如 下 图 所 示 : 





zend_execute data 






EG(symbol_table) 


CV 变量 区 


E 






(3) 执 行 opcode 


这 一 步 开 始 具 体 执 行 opcode 指 令 ， 这 里 调用 的 是 zend_execute_ex ， 这 是 一 个 函 
数 指针 ， 如 果 此 指针 没有 被 任何 扩展 重新 定义 那么 将 由 默认 的 execute_ex 处 
理 : 


# define ZEND OPCODE HANDLER ARGS_PASSTHRU exvecute data 


ZEND_API void execute ex(zend execute data "ex 


í 


zend_execute_data *execute_data = ex; 


while(1) { 
int ret; 
if (UNEXPECTED((ret = ((opcode handler_t)EX(opline)->han 
dler)(execute data /*ZEND OPCODE_ HANDLER ARGS PASSTHRU*/)) != oi 
) I 
if (EXPECTED(ret > 0)) { // 调 到 新 的 位 置 执行 : 元 数 调 用 时 的 


睛 况 
execute_data = EG(current_execute_data); 
}else{ 
return; 
} 
} 
} 


大 概 的 执行 过 程 上 面 已 经 介绍 过 了 ， 这 里 只 分 析 下 整体 执行 流程 ， 至 于 PHP 各 语法 
具体 的 handler 处 理 后 面 会 单独 列 一 章 详细 分 析 。 


(4) 释 放 stack 


这 一 步 就 比较 简单 了 ， 只 是 将 申请 的 zend_execute_data 内 存 释放 给 内 存 池 ( 注 
意 这 里 并 不 是 变量 的 销毁 )， 有 具体 的 操作 只 需要 修改 几 个 指针 即 可 : 


statie zendtalways linlune Vord zeng vm stack Tree alt Tramne evt 





uint3s2 t call info, zend execute data “call) 


{ 
ZEND_ASSERT_VM_STACK_GLOBAL; 
if (UNEXPECTED(call_info & ZEND_CALL_ALLOCATED)) { 
zend_vm_stack p = EG(vm_stack); 
zend_vm_stack prev = p->prev; 
EG(vm_stack_top) = prev->top; 
EG(vm_stack_end) = prev->end; 
EG(vm_stack) = prev; 
efree(p); 
} else { 
EG(vm_stack_top) = (zval*)call; 
} 
ZEND_ASSERT_VM_STACK_GLOBAL; 
} 


static zend always_inline void zend_vm_stack_free_call_frame(zen 





d_execute_data *call) 


{ 
zend_vm_stack_free_call_frame_ex(ZEND_CALL_INFO(call), call) 





3.3.3 函数 的 执行 流程 


(这 SE GER 数 ) 上 一 节 我 们 介绍 了 zend 
执行 引擎 的 几 个 关键 步骤 ， 也 简单 的 介绍 了 函数 的 调用 过 程 ， 这 里 再 单独 总 结 下 


e 【初始 化 阶段 】 这 个 阶段 首先 查找 到 函 数 的 zendfunction， 普 通 function 就 是 
到 EG(functiontable) 中 查找 ， 成 员 方 法 则 先 从 EG(class_table) 中 找到 
Zend_class_entry， 然 后 再 进一步 在 其 function_table 找 到 zend_function， 接 着 
就 是 根据 zend_op_array 新 分 配 ”zend_execute_data 结构 并 设置 上 下 文 切换 


的 指针 

e 【参数 传递 阶段 】 如 果 函 数 没有 参数 则 跳 过 此 步骤 ， 有 的 话 则 会 将 函数 所 需 允 
数 传递 到 初始 化 阶段 新 分 配 的 zend_execute _ data 动态 变量 区 

e [HAAA] 这 个 步骤 主要 是 做 上 下 文 切换 ， 将 执行 器 切换 到 调用 的 函数 
上 ， 可 以 理解 会 在 这 个 阶段 递归 调用 zend_execute_ex 有 函数 实现 call 的 过 程 ( 实 
际 并 一 定 是 递归 ， 软 认 是 在 while(1){..} 中 切换 执行 空间 的 ， 但 如 果 我 们 在 扩展 
中 重 定义 了 zend_execute_ex 用 来 介入 执行 流程 则 就 是 递 具 调用 ) 

e [ZARIN] 被 调用 函数 内 部 的 执行 过 程 ， 首 先是 接收 参数 ， 然 后 开始 执 
行 opcode 

e 【函数 返回 阶段 】 被 调用 有 函数 执行 完毕 返回 过 程 ， 将 返回 值 传递 给 调用 方 的 
Zend_execute_ data 变量 区 ， 然 后 释放 zend_execute_data 以 及 分 配 的 局 部 变 
量 ， 将 上 下 文 切 换 到 调用 前 ， 回 到 调用 的 位 置 继续 执行 ， 这 个 实际 是 函数 执行 
中 的 一 部 分 ， 不 算是 独立 的 一 个 过 程 


小 


接 下 来 我 们 一 个 具体 的 例子 详细 分 析 下 各 个 阶段 的 处 理 过 程 : 


function my_function($a, $b = false, $c = "hi"){ 
return $c; 


} 
$a = array(); 
$b = true; 


my_function($a, $b); 


主 脚本 、my_function 的 opcode 为 : 


3.3 Zend 引 擎 执行 流程 


function opcode 


虽 始 化 阶段 


传递 参数 阶段 函数 执行 阶段 


Call 


函数 调用 阶段 





ZEND_RETURN 





3.3.3.1 初始 化 阶段 
此 阶段 的 主要 工作 有 两 个 : 查找 函数 zend_ function、 分 配 zend_execute data ° 


上 面 的 例子 此 过 程 执 行 的 opcode 为 ZEND_INIT_FCALL ， 根 据 op_type 计 算 可 得 
handler 为 ZEND_INIT_FCALL_SPEC_CONST_HANDLER 
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static ZEND OPCODE HANDLER REI ZEND_FASTCALL ZEND_INIT_FCALL_SPE 
C_CONST_HANDLER(ZEND_OPCODE_HANDLER_ARGS ) 


{ 
USE_OPLINE 


zval *fname = EX_CONSTANT(opline->0p2); // 调 用 的 函数 名 称 通 过 操作 
数 2 记 录 

zval *func; 

zend_function *fbc; 

zend_execute data "call: 


// 这 里 牵扯 到 zend 的 一 种 缓存 机 制 : 运行 时 缓存 ， 后 面 我 们 会 单独 分 析 ， 这 里 忽 
略 即 可 


// 首 先 根据 函数 名 去 EG(function_table) 索 引 zend_function 
func = zend_hash_find(EG(function_table), Z_STR_P(fname) 
); 
if (UNEXPECTED(func == NULL)) { 
SAVE_OPLINE( ); 
zend_throw error(NULL, "Call to undefined function Oé 
SCHT, Z_STRVAL_P(fname)); 
HANDLE_EXCEPTION(); 


} 
fbc = Z_FUNC_P(func); //(*func).value.func 


// 分 配 zend_execute_data 
call = zend vm stack push_call frame_ex( 
opline->opi.num, ZEND CALL NESTED FUNCTION, 
fbc, opline->extended_value, NULL, NULL); 
call->prev_execute_data = EX(call); 
EX(call) = call; // 将 当前 正在 运行 的 Zend_execute_data.call 指 向 新 
分 配 的 Zend_execute_data 





ZEND_VM_NEXT_OPCODE( ) ; 


当前 Zend_execute_data 及 新 生成 的 Zend execute data 关系 : 


EG(current_ execute data) 


调用 方 zend_execute_data 


This 


被 调 方 zend_execute_data 


This.value.obj 








zend_execute_data *call zval This Ze 当前 对 象 
| 
\ *prev_execute_data ke 
\ prov- z l EH This ui reserved 


Call Info 








动态 变节 区 
This.u2.num_args 


实际 传 参 数 


executor 

















普通 局 部 变量 


返回 值 








注意 This 这 个 值 ， 它 并 不 仅仅 指 的 是 面向 对 象 中 那个 this， 此 外 它 还 记录 着 其 它 两 
个 信息 : S 


e Call Info: 调用 信息 过 This.u1.reserved 记录 ， 因 为 我 们 的 主 脚 本 、 用 
户 自 定义 函数 调用 、 Se 函数 调用 、 WA ege i 
zend_execute_data， 这 个 值 就 是 用 来 区 分 这 些 不 同类 型 的 ， 对 应 的 具体 值 
为 : ZEND_CALL TOP CODE 、ZEND CALL NESTED FUNCTION、 
ZEND CALL TOP EUNCTION ` ZEND CALL NESTED CODE: 这 个 信息 
是 在 分 配 zend_execute data 时 显 式 声明 的 

e num_args ` 函数 调用 实际 传 入 的 参数 数量 ， 通 过 This.u2.num_args 记录 ， 
比如 示例 中 我 们 定义 的 函数 有 3 个 参数 ， SE 而 我 们 调用 时 传 入 
了 2 个 ， 所 以 这 个 例 EEN 这 个 值 在 编译 时 知道 的 ， 保 存在 
_zend_op->extended_value 中 


3.3.3.2 参数 传递 阶段 


这 个 过 程 就 是 将 当前 Nee 间 下 的 变量 值 "复制 "到 新 的 zend evecute data 动态 变 
量 区 中 ， 那 么 调用 方 怎 道 要 把 值 传 递 到 新 zend_execute_ data 哪个 位 置 呢 ? 
e SE S > Zend_execute data 的 动态 变量 es 

， 按照 参 数 的 顺序 依次 分 配 ， 接 着 才 是 普通 的 局 部 变量 、 临 时 变量 等 ， 所 以 调用 
Ste SEO Ee ECKE 


外 这 里 的 "复制 "并 不 是 硬 拷 贝 ， 而 是 传递 的 value 指 针 ( 当 然 bool/int/double 类 型 不 
需要 )， 通 过 引用 计数 管理 ， 当 在 被 调子 数 内 部 改写 参数 的 值 时 将 重新 找 贝 一 份 ， 与 
普通 的 变量 用 法 相同 。 


zb 29 3 


调用 方 zend_execute_data 被 调 方 zend_execute_data 


动态 变量 区 





zend_array 


zval.value.arr zval.value.arr 





图 中 画 的 只 是 上 面 示例 那 种 情况 ， 比 如 my_function(array()); 直接 传 值 则 会 是 
literals 区 -> 新 zend_execute datazh SZ SR 的 传递 。 


3.3.3.3 苞 数 调用 阶段 
个 过 程 主要 是 进行 一 些 上 下 文 切换 ， 将 执行 器 切换 到 调用 的 函数 上 。 


上 面 例子 对 应 的 opcode 为 ZEND_DO_UCALL ，handler 
为 ZEND_DO_UCALL_SPEC_HANDLER 


static ZEND OPCODE HANDLER BET ZEND FASTCALL ZEND DO UCALL SPEC_ 
HANDLER(ZEND_OPCODE_HANDLER_ARGS ) 
£ 

USE_OPLINE 

zend_execute_data *call = EX(call); 

zend_function *fbc = call->func; 

zval *ret; 


SAVE_OPLINE(); 
EX(call) = call->prev_execute_data; 


EG(scope) = NULL; 


ret = NULL; 
call->symbol_table = NULL; 
if (RETURN_VALUE_USED(opline)) { 
ret = EX_VAR(opline->result.var); // 函 数 返 回 值 的 存储 位 置 
ZVAL_NULL(ret); 
Z_VAR_FLAGS P(ret) = 


call->prev_execute data = execute data // 将 新 zend_execute_da 
ta->prev_execute data 指 向 当前 data 
i_init_func execute data(call, &fbc->op_array, ret, 0); 





ZEND_VM_ENTER( ); 


//zend execute.c 

static zend always inline void i init func execute data(zend exe 
cute data *execute data, zend_ op array *op_array, zval *return_v 
alue, int check_this) 





uint32_t first extra arg, num_args; 
ZEND_ASSERT(EX(func) == (zend_function*)op_ array); 


EX(opline) = op_array->opcodes; 
EX(call) = NULL; 
EX(return_value) = return value: 


first_extra_arg = op_array->num_args; // 函 数 的 总 参数 数量 ， 示 例 中 
为 3 

num_args = EX_NUM_ARGS(); // 实 际 传 入 参数 数量 ， 示 例 中 为 2 

if (UNEXPECTED(Nnum args > Tiret extra arg)) { 





} else if (EXPECTED( (op_array->fn_flags & ZEND_ACC_HAS_TYPE 
HINTS) == 0)) { 
// 跳 过 前 面 几 个 已 经 传 参 的 参数 接收 的 指令 ， 因 为 已 经 显 式 的 传递 参数 了 ， 
需 再 接收 默认 值 
EX(opline) += num_args 


// 初 始 化 动态 变量 区 ， 将 所 有 变量 ( 除 已 经 传 入 的 外 ) 设 置 为 TS_UNDEF 


if (EXPECTED((int)num_args < op_array->last_var)) { 
zval *var = EX_VAR_NUM(num_args); 
zval "end = EX_VAR_NUM(op_array->last_var); 


do { 
ZVAL_UNDEF (var); 
var++; 

} while (var != end); 


// 分 配 运行 时 缓存 ， 此 机 制 后 面 再 单独 说 明 
if (UNEXPECTED(!op_array->run_time_cache)) { 
op_array->run_time_cache = zend arena alloc(&CG(arena), 
op_array->cache_size); 
memset(op_array->run_time_cache, ©, op_array->cache_size 
); 
} 
EX_LOAD_RUN_TIME_CACHE(op_array); //execute_data.run_time_ca 
che = op_array.run_time_cache 
EX_LOAD_LITERALS(op_array); //execute_data.literals = op_arr 
ay.literals 





/VEG(current_execute_data) 为 执行 器 当前 执行 空间 ， 将 执行 器 切 到 函数 内 
EG(current_execute_data) = execute data: 


3.3 Zend 引 擎 执行 流程 


EG(current execute data) 


调用 方 zend_execute_data 


zend_execute_data *call 













被 调 方 zend_execute_data 










动态 变量 区 


e fal. 





3.3.3.4 函数 执行 阶段 


这 个 过 程 就 是 函数 内 部 opcode 的 执行 流程 ， 没 什么 特别 的 ， 唯 一 的 不 同 就 是 前 面 会 
接收 未 传 的 参数 ， 如 下 图 所 示 。 


function opcode 


eg 


WEE 


ZEND BECH INIT | 从 此 处 开始 执行 


ZEND_RETURN 


3.3.3.5 函数 返回 阶段 





实际 此 过 程 可 以 认为 是 3.3.3.4 的 一 部 分 ， 这 个 阶段 就 是 函数 调用 结束 ， 返 回调 用 处 
的 过 程 ， 这 个 过 程 中 有 三 个 关键 工作 : 拷贝 返回 值 、 执 行 器 切 回 调用 位 置 、 释 放 清 
理 局 部 变量 。 

上 面 例子 此 过 程 opcode 为 ZEND_RETURN ， 对 应 的 handler 

为 ZEND_RETURN_SPEC_CV_HANDLER 
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static ZEND OPCODE HANDLER REI ZEND_FASTCALL ZEND RETURN SPEC CV 
_HANDLER(ZEND_OPCODE_HANDLER_ARGS ) 





{ 

USE_OPLINE 

zval *retval_ptr; 

zend_free_op free_op1; 

// 获 取 返 回 值 

retval ptr = _get_zval_ptr_cv_undef(execute_data, opline->op 
1.var); 


if (IS_CV == IS_CV && UNEXPECTED(Z_TYPE_INFO_P(retval_ptr) = 
= IS_UNDEF)) { 
// 返 回 值 未 定义 ， 返 回 NULL 
retval_ptr = GET_OP1_UNDEF_CV(retval_ptr, BP_VAR_R); 
if (EX(return_value)) { 
ZVAL_NULL(EX(return_value)); 








} 
} else if(!EX(return_value)){ 
// 无 返回 值 


}else{ // 返 回 值 正常 


ZVAL_DEREF(retval_ptr); // 如 果 retval ptr 是 引用 则 将 找到 其 具体 
引用 的 Zval 

ZVAL_COPY(EX(return_value)，retval ptr); / /将 返回 值 复制 给 调 
用 方 接收 值 : EX(return_value) 


ZEND_VM_TAIL CALL(zend_leave_ helper_SPEC(ZEND_ OPCODE HANDLER 
_ARGS_PASSTHRU) ) ， 


} 


继续 看 下 zend_leave_helper_SPEC ， 执 行 器 切换 、 局 部 变量 清理 就 是 在 这 个 函 
数 中 完成 的 。 


static ZEND_OPCODE_HANDLER_RET ZEND_FASTCALL zend Leave belner S 
PEC(ZEND_OPCODE_HANDLER_ARGS ) 


zend_execute_data "old execute data: 
uint32_t call info = EX CALL_ INFO(); 


if (EXPECTED(ZEND_CALL_KIND_EX(call_info) == ZEND_CALL_NESTE 
D_FUNCTION)) { 
EE E 





1 Tree compiled variables(execute data); 


} 
/V]include、eval 及 整个 脚本 的 结束 (main 函 数 ) 走 到 下 面 
OA 


// 将 执行 器 切 回调 用 的 位 置 
EG(current_ execute data) = EX(prev_ execute data); 


//zend execute.c 
// 清 理 局 部 变量 的 过 程 
static zend always inline void 1 Tree compiled variables(zend ex 
ecute data “execute data) 
{ 
zval *cv = EX_VAR_NUM(O); 
zval *end = cv + EX(func)->op_array.last var: 
while (EXPECTED(cv != end)) { 
if (Z_REFCOUNTED_P(cv)) { 
if (!Z_DELREF_P(cv)) { // 引 用 计数 减 一 后 为 0 
zend_refcounted *r = Z_COUNTED_P(cv); 
ZVAL NULL (evi? 
zval_dtor_func_for_ptr(r); //Æ È 1i 
} else { 
GC_ZVAL_CHECK_POSSIBLE_ROOT (cv); /7/ 引 用 计数 减 一 后 > 
90， 尼 动 垃圾 检查 机 制 ， 清 理 循环 引用 导致 无 法 回收 的 垃圾 





CV++， 


除了 函数 调用 完成 时 有 return 操 作 ， 其 它 还 有 两 种 情况 也 会 有 此 过 程 : 


e 1.PHP 主 脚本 执行 结束 时 : 也 就 是 PHP 脚 本 开始 执行 的 入 口 脚 本 (PHP 没 有 显 
式 的 main 函 数 ， 这 种 就 可 以 认为 是 main 郊 数 )， 但 是 这 种 情况 并 不 会 在 return 时 
清理 ， 因 为 在 main 辑 数 中 定义 的 变量 并 非 纯 碎 的 局 面 变 量 ， 它 们 都 是 全 局 变 
量 ， 与 $GET、$POST 是 一 类 ， 这 些 全 局 变量 的 清理 是 在 request_shutdown 阶 
段 处 理 

e 2.include ` eval ` 以 include 为 例 ， 如 果 include 的 文件 中 定义 了 全 局 变量 ， 那 
么 这 些 变量 实际 与 上 面 1 的 情况 一 样 ， 它 们 的 存储 位 置 是 在 一 起 的 


所 以 实际 上 面 说 的 这 两 种 情况 属于 一 类 ， 它 们 并 不 是 局 部 变量 的 清理 ， 而 是 全 局 变 


量 的 清理 ， 另 外 局 部 变量 的 清理 也 并 非 只 有 return 一 个 时 机 ， 另 外 还 有 一 个 更 重要 
的 时 机 就 是 变量 分 离 时 ， 这 种 情况 我 们 在 《PHP 语 法 实现 》 一 节 再 具体 说 明 。 


3.3.4 全 局 execute data 和 opline 


Zend 执 行 器 在 opcode 的 执行 过 程 中 ， 会 频繁 的 用 到 execute _data 和 opline 两 个 变 
量 ，execute_ data 为 zend_execute_ data 结构 ，opline 为 当前 执行 的 指令 。 普 通 的 处 
理 方 式 在 执行 每 条 opcode 指 令 的 handler 时 ， 会 把 execute _data 地 址 作为 参数 传 给 
handler 使 用 ， 使 用 时 先 从 当前 栈 上 获取 execute data 地 址 ， 然 后 再 从 堆 上 获取 变量 


的 数据 ， 这 种 方式 下 Zend 执 行 器 展开 后 是 下 面 这 样 : 


ZEND_API void execute ex(zend execute data *ex) 
{ 
zend_execute data *execute data = ex; 
while (1) { 
int ret; 


if (UNEXPECTED((ret = ((opcode handler_t)execute data->o 
pline->handler)(execute data)) != 0)) { 
if (EXPECTED(ret > 0)) { 
execute data = EG(current execute data); 
} else { 
recurn, 


ww 


用 。 通 过 这 个 循环 ，ZendVM 完 成 opcode 指 令 的 执行 。opcode 执 行 完 后 以 后 指向 下 
条 指令 的 操作 是 在 当前 handler 中 完成 ， 也 就 是 说 每 条 执行 执行 完 以 后 会 主动 更 新 
opline， 这 里 会 有 下 面 几 个 不 同 的 动作 : 


| 


#define ZEND_VM_CONTINUE( ) return 0 
#define ZEND_VM_ENTER() return 
#define ZEND MN LEAVEI) return 2 


#define ZEND_VM_RETURN() return -1 


ZEND_VM_CONTINUE() 表 示 继 续 执行 下 一 条 opcode ; 
ZEND_VM_ENTER()/ZEND_VM_LEAVE() 是 调用 函数 时 的 动作 ， 普 通 模式 下 
ZEND_VM_ENTER() 实 际 就 是 return 1， 然 后 execute_ex() 中 会 将 execute_data 切 
换 到 被 调 函 数 的 结构 上 ， 对 应 的 ， 在 函数 调用 完成 后 ZEND_VM_LEAVE() 会 return 
2， 再 将 execute_data 切 换 至 原来 的 结构 ; ZEND_VM_RETURN() 表 示 执 行 完成 ， 
返回 -1 给 execute_ex()， 比 如 exit， 这 时 候 execute_ex() 将 退出 执行 。 下 面 看 一 个 具 
体 的 例子 : 


$a 二 Wha 
echo $a; 
执行 过 程 如 下 图 所 示 : 


opcodes 


ZEND_ASSIGN_SPEC_C 
V_CONST_HANDLER() Je BEES 
opline++ L 
(op ) d zend execute data 


ZEND ECHO _ SPEC CN ` 
executor HANDLERI ZEND ECHO 
{opline++) 


ZEND RETURN SPEC CT ZEND RETURN 
ONST_HANDLERI) 


以 ZEND_ASSIGN 这 条 赋值 指令 为 例 ， 其 handler 展 开 前 如 下 : 








zend_op *opline 








static ZEND OPCODE_HANDLER_RET ZEND_FASTCALL ZEND ASSIGN_ SPEC_ CV 
_CONST_HANDLER(ZEND_OPCODE_HANDLER_ARGS ) 


1 
USE_OPLINE 


ZEND_VM_NEXT_OPCODE_CHECK_EXCEPTION( ) ; 


所 有 opcode 的 handler 定 义 格 式 都 是 相同 的 ， 其 参数 列表 通过 
ZEND OPCODE HANDLER _ARGS 宏 定义 ， 展 开 后 实际 只 有 一 个 execute_data > 
展开 后 : 


static int ZEND ASSIGN_ SPEC CV ONST HANDLER( zend execute data" 





execute_data) 

















{ 
//USE_OPLINE 
const zend op *opline = execute data->opline; 
//ZEND_VM NEXT_OPCODE CHECK EXCEPTION() 
execute_data->opline = execute data->opline + 1; 
[SELL 

} 


从 这 个 例子 可 以 很 清楚 的 看 到 ， 执 行 完 以 后 会 将 execute_data->opline 加 1， 也 就 是 
指向 下 一 条 opcode， 然 后 返回 0 给 execute_ex()， 接 着 执行 器 在 下 一 次 循环 时 执行 
下 一 条 opcode， 依 次 类 推 ， 直 至 所 有 的 opcode 执 行 完成 。 这 个 处 理 过程 比 较 简 
单 ， 并 没有 不 好 理解 的 地 方 ， 而 且 整个 过 程 看 起 来 也 都 那么 顺理成章 。PHP7 针 对 
execute data、opline 两 个 变量 的 存储 位 置 进行 了 优化 ， 那 就 是 使 用 全 局 寄存 器 保 
存 这 两 个 变量 的 地 址 ， 以 实现 更 高 效率 的 读 取 。 这 种 方式 下 execute_data、opline 
直接 从 寄存 器 读 取 地 址 ， 在 性 能 上 大 概 有 5% 的 提升 (官方 说 法 )* 在 分 析 PHP7 的 优 
化 之 前 ， 我 们 先 简单 介绍 下 什么 是 寄存 器 变量 。 


寄存 器 变量 存放 在 CPU 的 寄存 器 中 ， 使 用 时 ， 不 需要 访问 内 存 直接 从 寄存 器 中 读 
写 ， 与 存储 在 内 存 中 的 变量 相 比 ， 寄 存 器 变量 具有 更 快 的 访问 速度 ， 在 计算 机 的 存 
储 层 次 中 ， 寄 存 器 的 速度 最 快 ， 其 次 是 内 存 ， 最 慢 的 是 硬盘 。C 语 言 中 使 用 关键 字 
register 来 声明 局 部 变量 为 寄存 器 变量 ， 需 要 注意 的 是 ， 只 有 局 部 自动 变量 和 形式 参 
数 才能 够 被 定义 为 寄存 器 变量 ， 全 局 变量 和 局 部 静态 变量 都 不 能 被 定义 为 寄存 器 变 
量 。 而 有 全， 一 个 计算 机 中 寄存 器 数量 是 有 限 的 ， 一 般 为 2 到 3 个 ， 因 此 寄存 器 变量 的 
数量 不 能 太 多 。 对 于 在 一 个 函数 中 说 明 的 多 于 2 到 3 个 的 寄存 器 变量 ，C 编译 程序 会 
自动 地 将 寄存 器 变量 变 为 自动 变量 。 受 硬 件 寄 存 器 长 度 的 限制 ， 寄 存 器 变量 只 能 是 
char 、int 或 指针 型 ， 而 不 能 使 其 他 复杂 数据 类 型 。 由 于 register 变 量 使 用 的 是 硬件 
CPU 中 的 寄存 器 ， 寄 存 器 变量 无 地 址 ， 所 以 不 能 使 用 取 地 址 运算 符 "&" 求 寄存 器 变 
量 的 地 址 。 


可 


GCC 从 4.8.0 版 本 开始 支持 了 另外 一 项 特性 : 全 局 寄存 器 变量 (Global Register 
Variables， 详 细 介 绍 )， 也 就 是 可 以 把 全 局 变量 定义 为 寄存 器 变量 ， 从 而 可 以 实现 
函数 间 共 享 数据 。 可 以 通过 下 面 的 语法 告诉 编译 器 使 用 寄存 器 来 保存 数据 : 


register int giele asm( e E /nl Ae be 


或 者 : 


register int “foo asm EE //r12-%r12 


这 里 r12 就 是 指定 使 用 的 寄存 器 ， 它 必须 是 运行 平台 上 有 效 的 寄存 器 ， 这 样 就 可 以 
像 使 用 普通 的 变量 一 样 使 用 foo， 但 是 foo 同 样 没有 地 址 ， 也 就 是 无 法 通过 & 获 取 它 
的 地 址 ， 在 gdb 调 试 时 也 无 法 使 用 foo 符 号 ， 只 能 使 用 对 应 的 寄存 器 获取 数据 。 举 个 
例子 来 看 : 


//main.c 
#include <stdlib.h> 


typedef struct _execute_data { 


Ime ip; 
}zend_execute_data; 


register zend_execute_data* execute_data asm Ser 





int main(void) 


{ 


execute_data = (zend_execute_data *)malloc(sizeof(zend_exec 
ute_data)); 
execute_data->ip = 9999; 


returni op 


编译 : $ gcc -o main -g main.c ， 然 后 通过 gdb 看 下 : 


$ gdb main 

(gdb) break main 

(gdb) r 

Starting program: /home/qinpeng/c/php/main 


Breakpoint 1, main () at main.c:12 

12 execute_data = (zend_execute_data *)malloc(sizeof(zend_ 
execute_data)); 

(gdb) n 

13 execute_data->ip = 9999; 

(gdb) n 

15 return 0; 


这 时 我 们 就 无 法 再 像 首 通 变量 那样 直接 使 用 execute_data 访 问 数据 ， 只 能 通过 r14 
寄存 器 读 取 : 


(gdb) p execute data 
Missing ELF symbol "execute data". 
(gdb) info register r14 


r14 0x601010 6295568 
(gdb) p ((zend_execute_data *)$r14)->ip 
$3 = 9999 


了 解 完 全 局 寄存 器 变量 ， 接 下 来 我 们 再 回头 看 下 PHP7 中 的 用 法 ， 处 理 也 比较 简 

单 ， 就 是 在 execute_ex() 执 行 各 opcode 指 令 的 过 程 中 ， 不 再 将 execute_data 作 为 参 
数 传 给 handler， 而 是 通过 寄存 器 保存 execute_data 及 opline 的 地 址 ，handler 使 用 时 
直接 从 全 局 变量 (寄存 器 ) 读 取 ， 执 行 完 再 把 下 一 条 指令 更 新 到 全 局 变量 。 


该 功能 需要 GCC 4.8+ 支 持 ， 默 认 开 司 ， 可 以 通过 --disable-gcc-global-regs 编译 参 
数 关闭 。 以 X86_ 64 为 例 ，execute data 使 用 r14 寄 存 器 ，opline 使 用 r15 寄 存 器 : 


//file: zend_execute.c line: 2631 
# define ZEND_VM_FP_GLOBAL_REG "%r14" 
# define ZEND_VM_IP_GLOBAL_REG "%r15" 


//file: zend_vm_execute.h line: 315 

register zend_execute_data* volatile execute_data asm_ (ZEND_V 
M_FP_GLOBAL_REG ) ， 

register const zend op* volatile opline _ asm (ZEND_ VM IP GLOBA 
L_REG ) ， 





execute_data、opline 定 义 为 全 局 变量 ， 下 面 看 下 execute_ ex() 的 变化 ， 展 开 后 : 


ZEND API void execute ex(zend execute data *ex) 


{ 
const zend op *orig opline = opline; 
zend_execute data *orig execute data = execute data: 


// 将 当前 execute_data、opline 保 存 到 全 局 变量 
execute data = ex; 
opline = execute data->opline 


while (1) { 
((opcode handler_t)opline->handler )(); 


if (UNEXPECTED(!opline)) { 
execute_data = orig_execute_data; 
opline = orig_opline; 


return; 


这 个 时 候 调 用 各 opcode 指 令 的 handler 时 就 不 再 传 入 execute_ data 的 参数 了 ， 
handler 使 用 时 直接 从 全 局 变量 读 取 ， 仍 以 上 面 的 赋值 ZEND_ASSIGN 指 令 为 例 ， 
handler 展 开 后 : 


static int ZEND_ASSIGN_SPEC_CV_CONST_HANDLER(void) 
{ 


//ZEND_VM NEXT _ OPCODE CHECK EXCEPTION() 
opline = execute data->opline + 1; 
return; 


当 调 用 元 数 时 ， 会 把 execute_data、opline 更 新 为 被 调 函 数 的 ， 然 后 回 到 
execute_ex() 开 始 执 行 被 调 函 数 的 指令 : 


# define ZEND_VM_ENTER() execute data = EG(current exe 
cute_data); LOAD OPLINE(); ZEND_ VM CONTINUE) 


展开 后 : 


//ZEND_VM_ENTER( ) 

execute_data = execute_data->current_execute_data; 
opline = execute_data->opline; 

return; 


这 两 种 处 理 方式 并 没有 本 质 上 的 差异 ， 只 是 通过 全 局 寄存 器 变量 提升 了 一 些 性 能 。 


Note: automake 编 译 时 的 命令 是 cc， 而 不 是 gcc， 如 果 更 新 gcc 后 发 现 PHP 仍 然 
没有 支持 这 个 特性 ， 请 检查 下 cc 是 否 指向 了 新 的 gcc 


六 


3.4.1 类 


类 是 现实 世界 gene ee 
据 以 及 这 些 数据 上 的 操作 封装 在 一 起 。 在 面向 对 象 中 类 是 对 象 的 抽象 ， 对 象 是 类 的 
具体 实例 。 


在 PHP 中 类 编译 阶段 的 产物 ， 而 对 象 是 运行 时 产生 的 ， 它 们 归属 于 不 同 阶 段 。 


PHP 中 我 们 这 样 定 义 一 个 类 : 


class 类 名 { 
常量 ， 
成 员 属 性 
成 员 方 法 ， 


一 个 类 可 以 包含 有 属于 自己 的 常量 、 变 量 (MARE) 以 及 函数 〈 称 为 "方法 ") > 
本 节 将 围绕 这 三 部 分 具体 弄 清楚 以 下 几 个 问题 : 


e a. 类 的 存储 及 索引 

e b. 成 员 属性 的 存储 结构 

e C. 成 员 方法 的 存储 结构 

e d. 成 员 方 法 的 调用 过 程 及 与 普通 function 调 用 的 差别 


3.4.1.1 类 的 结构 及 存储 
首先 我 们 看 下 类 的 数据 结构 : 


struct _zend_class entry { 
char type; // 类 的 类 型 : 内 部 类 ZEND_INTERNAL_CLASS(1) ` 
用 户 自 定义 类 ZEND_USER_CLASS(2) 
zend_string *name; // 类 名 ，PHP 类 不 区 分 大 小 号， 统一 为 小 写 
struct _zend_class_entry *parent; // 父 类 
int refcount; 
uint32_t ce_flags; // 类 掩 码 ， 如 普通 类 、 抽 象 类 、 接 口 ， 除 了 这 还 有 别 的 


全、 Set 二 天 二 
EE 


int default properties Count: // 普 通 属性 数 ， 包 括 public、 


private 

int default static members Count: //7 5A tt% > static 

zval *default_properties_table; EE 

zval *default_static members table:  // 荐 态 属 性 和 值 数 组 

zval *static_members_table; 

HashTable function_table; // 成 员 方 法 哈 布 表 

HashTable properties Info: // 成 员 属性 基本 信息 哈 希 表 ，Kkey 为 成 员 名 ， 
value 为 zend_property_info 

HashTable constants_table; // 常 量 哈 希 表 ， 通 过 constant 定 义 的 


// 以 下 是 构造 函授 、 析 构 函 数 、 魔 术 方 法 的 指针 
union _zend function *constructor; 
union _zend_ function *destructor; 
union _zend_ function *clone; 

union _zend function * get; 

union _zend function * set; 

union _zend function * unset; 

union _zend function * isset; 

union _zend function * call; 

union _zend function * callstatic; 
union _zend_ function *_ tostring; 
union _zend_function P debugInfo 
union _zend function *serialize func; 
union _zend_ function *unserialize func; 


zend_ class iterator funcs iterator_ funcs; 


// 自 定义 的 钧 子 函 数 ， 通 常 是 定义 内 部 类 时 使 用 ， 可 以 灵活 的 进行 一 些 个 性 化 的 操作 
// 用 户 自 定义 类 不 会 用 到 ， 暂 时 忽略 即 可 


zend_object* (*create object)(zend class entry *class type); 

zend_object_ iterator *(*get iterator)(zend_ class entry *ce, 
zval *object, int by_ref); 

int (*interface gets implemented)(zend_class entry *iface, z 
end_class_entry "class type); /* a class implements this interfa 
ce */ 

union _zend_function *(*get_static_method)(zend_class_entry 
*ce, zend_string* method); 


/* serializer callbacks */ 


int (*serialize)(zval *object, unsigned char "butter, size_t 
*buf_len, zend_serialize_data *data); 
int (*unserialize)(zval *object, zend_class_entry *ce, const 
unsigned char *buf, size_t buf_len, zend_unserialize_data *data) 


£ 


uint32_t num_interfaces; // 实 现 的 接口 数 
Uint32 t num traits; 
zend_class_entry **interfaces; // 实 现 的 接口 


zend_class_ entry **traits; 
zend_ trait alias **trait aliases; 
zend_trait precedence **trait_precedences; 


union { 

struct { 
zend_string *filename; 
uint32_t line_start; 
uint32_t line_end; 
zend_string *doc_comment; 

} user; 

struct 4 


const struct _zend_function_entry *builtin_functions 


struct _zend_module_entry *module; // 所 属 扩 展 
} internal; 
} info; 


Ao oo o EE 


create_object 为 实例 化 对 象 的 操作 ， 可 以 通过 扩展 自 定义 一 个 函数 来 接管 实例 化 对 
象 的 操作 ， 没 有 定义 这 个 函数 的 话 将 由 默认 的 zend_objects_new() 处 理 ， 自 定 
义 时 可 以 参考 这 个 函数 的 实现 : 


// 注 意 : 此 操作 并 没有 将 属性 拷贝 到 zend_object 中 : 由 object_properties_ini 
t() 完 成 
ZEND_API zend _ object "zend objects new(zend class entry "ce 


{ 
zend_object *object = emalloc(sizeof(zend_object) + zend_obj 
ect_properties_size(ce)); 


zend_object_std_init(object, ce); 

// 设 置 对 象 操 作 的 handler 

object->handlers = &std_object_handlers; 
return object; 


举 个 例子 具体 看 下 ， 定 义 一 个 User 类 ， 它 继承 了 Human 类 ，User 类 中 有 一 个 常 
量 、 一 个 静态 属性 、 两 个 普通 属性 : 


AE 


class Human It 


class User extends Human 


{ 
const type = 110; 


static $name = "uuu"; 
public $uid = 900; 


public $sex = 'w'; 


pubiic runet ron Construct OH 


} 


public function getName(){ 
return $this->name; 


其 对 应 的 zend_class_entry 存 储 结构 如 下 图 。 


zend_class_entry 


Le 





zend_class_entry 


char type 2 


struct _zend_class_entry 
$ 


parent 


继承 的 父 关 


Uint32_t ce_flags 


int 2 
default_properties_count 


A 
zval 


. o geg I 
*default_properties_tabl | 一 普通 属性 数组 zval zva 
È e IS_LONG(900) |IS_STRING{ zw") 


int 
default_static_members_ 1 
count == 


zval S 
Tdetauht statt members 静态 TE BEE 
` table 


zval 
*static_members_table 





成 员 方法 
HashTable function_table 哈 希 表 










function_name 


zend_function 


WE 


HashTable 
properties_info 


HashTable 常量 
constants_table PÉR zval 
= WE IS_LONG(110) 


BEEREK 
union _zend_function 如 果 定 义 了 则 指向 function_table 中 对 
+ i z. ebe 
magic_func_name 应 的 function， 如 __construct、 set 


开始 的 时 候 已 经 提 到 ， 类 是 编译 阶段 的 产物 ， 编 译 完 成 后 我 们 定义 的 每 个 类 都 会 生 
成 一 个 zend_class_entry， 它 保存 着 类 的 全 部 信息 ， 在 执行 阶段 所 有 类 相关 的 操作 
都 是 用 的 这 个 结构 。 


所 有 PHP 脚 本 中 定义 的 类 以 及 内 核 、 扩 展 中 定义 的 内 部 类 通过 一 个 以 "类 名 "作为 索 
引 的 哈 希 表 存 储 ， 这 个 哈 硕 表 保 存在 Zend 引 擎 global 变 量 

中 : zend_executor_ globals.class_table( 即 : EG(class_table)) > 5 function %9 #4 
储 相 同 ， 关 于 这 个 global 变 量 前 面 《3.3.1.3 zend _executor globals》 已 经 讲 过 。 


HashTable 
zend class_entry 1 


zend_executor_ global 


HashTable *class_table zend_class_entry 2 


zend _ class_entry 3 


在 接 下 来 的 小 节 中 我 们 将 对 类 的 常量 、 成 员 属性 、 成 员 方法 的 实现 具体 分 析 。 





3.4.1.2 类 常量 


PHP 中 可 以 把 在 类 中 始终 保持 不 变 的 值 定义 为 第 量 ， 在 定义 和 使 用 常量 的 时 候 不 需 
要 使 用 $ 符 号， 常量 的 值 必须 是 一 个 定 值 (如 布尔 型 、 整 形 、 字 符 囊 、 数 组 ，php5.* 
不 支持 数组 )， 不 能 是 变量 、 数 学 运算 的 结果 或 函数 调用 ， 也 就 是 说 它 是 只 读 的 ， 无 
法 进行 赋值 。 


e 


Si 


常量 通过 const 定义 : 


class mv Class! 
const 常量 名 = 常量 值 ; 


Lei 


常量 通过 class_name:: 常 量 名 访问 ， 或 在 class 内 部 通过 self:: 常 量 名 访问 。 


常量 是 类 维度 的 数据 (而 不 是 对 象 的 )， 它 们 通 
过 zend_class_entry.constants_table 进行 存储 ， 这 是 一 个 哈 希 结构 ， 通 过 
常量 名 索引 ，value 就 是 具体 定义 的 常量 值 。 


常量 的 读 取 : 


根据 前 面 我 们 对 PHP opcode 已 有 的 了 解 ， 我 们 可 以 猜测 常量 访问 的 opcode 的 组 
成 : 常量 名 保存 在 literals 中 (其 op_type = IS_CONST)， 执 行 时 先 取 出 常量 名 ， 然 后 
去 zend_class_entry.constants_table 哈 希 表 中 索引 到 具体 的 常量 值 即 可 。 


事实 上 我 们 的 这 个 猜测 并 不 是 完全 正确 的 ， 因 为 有 的 情况 确实 是 我 们 猜想 的 那样 ， 
但 是 还 有 另外 一 种 情况 ， 比 较 下 两 个 例子 的 不 同 : 


EEN 
// 不 例 1 


echo mv class: AT: 


class mv Class! 
const A1 = "hi"; 

Ve nj 2 

class my_class { 
const A1 = "hi"; 


echo mv class: AT: 


唯一 的 不 同 就 是 常量 的 使 用 时 机 : 示例 Ve ， 示例 2 是 在 定义 后 使 用 
的 。 我 们 都 知道 PHP 变 量 无 需 提前 声明 ， 这 俩 会 有 什么 不 同 呢 ? 


事实 上 这 两 种 情况 内 核 会 有 两 种 不 同 的 处 理 方式 ， 示 例 1 这 种 情况 的 处 理 与 我 们 上 
面 的 猜测 相同 ， 而 示例 2 则 有 另外 一 种 处 理 方 式 : PHP 代 码 的 编译 是 顺序 的 ， 示 例 2 
的 情况 编译 到 echo my_class::AL 这 行 时 首先 会 党 试 检索 下 是 否 已 经 编译 了 
myclass， 如 果 能 在 CG(classtable) 中 找到 ， 则 进一步 从 类 的 contants_table ZS 
找 对 应 的 常量 ， 找 到 的 话 则 会 复制 其 value 替 换 常 量 ， 简 单 的 讲 就 是 类 似 C 语 言 中 的 
宏 ， 编译 时 替换 为 实际 的 值 了 ， 而 不 是 在 运行 时 再 去 检索 。 


具体 debug 下 上 面 两 个 例子 会 发 现 示例 2 的 EE 有 一 个 ZENDECHO， 也 
就 是 直接 输出 值 了 ， 并 没有 设计 类 常量 的 查找 ， 这 就 是 因为 编译 的 时 候 已 经 将 
my_class::A1 替换 为 _hi 了 ， echo my_class::A1; 等 同 于 : echo "hi"; ; 
而 示例 1 首先 的 操作 则 是 ZEND_FETCH_CONSTANT， 查找 常量 ， 接 着 才 是 
ZEND ECHO。 


3.4.1.3 成 员 属 性 


类 的 变量 成 员 叫 做 “属性 "。 属 性 声明 是 由 关键 字 public > protected 或 者 private 
开头 ， 然 后 跟 一 个 普通 的 变量 声明 来 组 成 ， 关 于 这 三 个 关键 字 这 里 不 作 讨 论 ， 后 面 
分 析 可 见 性 的 章节 再 作 说 明 。 


【修饰 符 (public/private/protected/static)】【 成员 属 性 名 】= 【属性 默认 值 】; 


属性 中 的 变量 可 以 初始 化 ， 但 是 初始 化 的 值 必须 是 常数 ， 这 里 的 常数 是 指 PHP 脚 
本 在 编译 阶段 时 就 可 以 得 到 其 值 ， 而 不 依赖 于 运行 时 的 信息 才能 求 值 ， 比 
如 public $time = time(); 这 样 定 义 一 个 属性 就 会 触发 语法 错误 。 


成 员 属性 又 分 为 两 类 : 普通 属性 、 静 态 属性 。 静 态 属性 通过 static 声明 ， 通 过 
self::$property 或 类 名 ::$property 访问 ; 普通 属性 通过 $this->property 或 
$object->property t} I] ° 


class my_class { 
// 普 通 属性 
public $property = 初始 化 值 ， 


// 静 态 属 性 
public static $property_2 = 初始 化 值 ， 


与 常量 的 存储 方式 不 同 ， 成 员 属 性 的 初始 化 值 并 不 是 直接 用 以 "属性 名 "作为 索引 
的 哈 硕 表 存储 的 ， 而 是 通过 数组 保存 的 ， 首 通 属性 、 静 态 属 性 各 有 一 个 数组 分 别 存 
储 。 


default_properties_count 





zend_class_entry | zval zval 
普通 属性 数组 ”| _ 初始 化 值 1 初始 化 值 2 


zval *default_properties_table 





zval *default_static_members_table H default_static_properties_count 


~、、 


静态 属性 数组 ”。 和 


E zval zval 
初始 化 值 1 初始 化 值 2 


看 到 这 里 可 能 有 个 疑问 : 使 用 时 成 员 属 性 是 如 果 找 到 的 呢 ? 








实际 只 是 成 员 属 性 的 VALUE 通过 数组 存储 的 ， 访 问 时 仍然 是 根据 以 "属性 名 "为 索 
引 的 散 列 表 查 找 具体 VALUE 的 ， 这 个 散 列 表 并 没有 按照 普通 属性 、 静 态 属性 分 为 两 
个 ， 而 是 只 用 了 一 个 : HashTable properties_info 。 此 哈 希 表 存 储 元 素 的 value 类 
型 为 zend_property_info -° 


typedef struct _zend SE Se ` 
uint32_t offset; // 首 通 成 员 变 量 的 内 存 偏 移 值 






uint32_t flags; // 届 性 掩 码 ， 如 public、private、p 


SE T E 
DAE. 大 BW 
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zend_string *name; // 属 性 名 :并 不 是 原始 属性 名 
zend_string *doc Comment: 
zend_class_entry *ce; // 所 属 关 

} zend_property_info 


//flags 标 识 位 
#define ZEND ACC PUBLIC 0x100 


#define ZEND_ACC_PROTECTED 0x200 
#define ZEND_ACC_PRIVATE 0x400 


#define ZEND_ACC_STATIC 0x01 


rotected 及 是 否 


e name : 属性 名 ， 特 别 注 意 的 是 这 里 并 不 全 是 原始 属性 名 ，private 会 在 原始 属 


性 名 前 加 上 类 名 ，protected 则 会 加 上 * 作 为 前 级 


e offset ` 这 个 值 记 录 的 就 是 上 面 说 的 通过 数组 保存 的 属性 值 的 索引 ， 也 就 是 说 
属性 值 保 存在 一 个 数组 中 ， 然 后 将 其 在 数组 中 的 位 置 保存 在 offset 中 ， 另 外 需 
要 说 明 的 一 点 的 是 普通 属性 、 静 态 属 性 这 个 值 用 法 是 不 一 样 的 ， 静 态 属性 是 类 
的 范 畸 ， 与 对 象 无 关 ， 所 以 其 offset 为 defaultstaticmemberstable 数 组 的 下 标 : 
0,、7、2......， 而 普通 属性 归属 于 对 象 ， 每 个 对 和 象 有 其 各 自 的 属性 ， 所 以 这 个 
Offset 记 录 的 实际 是 _ 各 属性 在 object 中 偏 移 值 (在 后 面 《3.4.2 对 象 》 一 节 我 们 


再 具体 说 明 普通 属性 的 存储 方式 )， 其 值 是 : 40、56、72.... 


大 小 偏 移 的 


是 按照 zval 的 内 存 


e flags : bit 位 ， 标 识 的 是 属性 的 信息 ， 如 public、private、protected 及 是 否 为 静 


态 属性 


所 以 访问 成 员 属 性 时 首先 是 根据 属性 名 查找 到 此 属性 的 存储 位 置 


取 属 性 值 。 


举 个 例子 : 


， 然后 再 进一步 获 


class mv Claes { 
public $property 1 = "aa"; 


public $property_2 = array(); 


public static $property_3 = 110; 


则 
default_properties_table ` default_static_properties_table ` properties_info 
关系 图 : 


zend_class_entry 


HashTable properties_info 
zval *default_properties_table 
zval *default_static_members_table 





HashTable zend_property_info 
E F ”offset 用 于 索 
flags = 256 a 引 对 象 中 各 
propery 2 | o | ”属性 的 位 置 
zend_property_info Ba 
propery offset = 56 at 
H "e 
flags =.256 zval zval 
property_1 property_2 


zend_property_info 
















flags = 257 zval 8 
property_3 


下 面 我 们 再 看 下 普通 成 员 属 性 与 静态 成 员 属 性 的 不 同 : 静态 成 员 变 量 保 存在 类 中 ， 
各 对 象 共享 同一 份 数据 ， 而 普通 属性 属于 对 象 ， 各 对 象 独 享 。 


成 员 属 性 在 类 编译 阶段 就 已 经 分 配 了 Zzval， 静 态 与 普通 的 区 别 在 于 普通 属性 在 创建 
一 个 对 象 时 还 会 重新 分 配 zval 〈 这 个 过 程 类 似 zend 引 擎 执行 前 分 配 在 

zend EE data 后 面 的 动态 变量 空间 ) ， 对 象 对 普通 属性 的 操作 都 是 在 其 自己 
的 空间 进行 的 ， 各 对 象 隔 离 ， 而 静态 属性 的 操作 始终 是 在 类 的 空间 内 ， 各 对 象 共 


享 。 


3.4.1.4 成 员 方 法 


3.4.1 类 


每 个 类 可 以 定义 若干 属于 本 类 的 函数 ( 称 之 为 成 员 方法 )， 这 种 函数 与 普通 的 function 
相同 ， 只 是 以 类 的 维度 进行 管理 ， 不 是 全 局 性 的 ， 所 以 成 员 方 法 保存 在 类 中 而 不 是 
EG(function_table) ° 





zend_class_entry 


HashTable function_table 










my 
È ZEND_ASSIGN 
ZEND_ADD 


ZEND_INIT_FCALL 
ZEND_DO_FCALL 









vm executor 






成 员 方 法 的 定义 : 


【修饰 符 (public/private/protected/static/abstruct/final)】function Tei 【成 员 
方法 名 】(【 参 数列 表 】)【 返 回 值 类 型 】{【 成 员 方 法 】}; 


成 员 方法 也 有 静态 、 非 静态 之 分 ， 静 态 方法 中 不 能 使 用 $this， 因 为 其 操作 的 作用 域 
全 部 都 是 类 的 而 不 是 对 象 的 ， 而 非 静 坊 方法 中 可 以 通过 $this 访 问 属于 本 对 象 的 成 员 
属性 。 


静态 方法 也 是 通过 static 关 键 词 定义 : 


class my_class { 
static public function test() { 
$a = "hi~"; 
echo $a; 


} 
// 静 态 方 法 可 以 这 么 调用 : 
my_class::test(); 


// 也 可 以 这 样 : 
$method = 'test'; 
my_class::$method(); 


静态 方法 中 调用 其 它 静 态 方 法 或 静态 变量 可 以 通过 self 访问 。 
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成 员 方 法 的 调用 与 普通 function 过 程 基本 相同 ， 根 据 对 象 所 属 类 或 直接 根据 类 取 到 
method 的 zend_ function， 然 后 执行 ， 具 体 的 过 程 《3.3 Zend 引 擎 执行 过 程 》 已 经 
详细 说 过 ， 这 里 不 再 重复 。 


3.4.1.5 自 定 义 类 的 编译 
前 面 我 们 先 介绍 了 类 的 相关 组 成 部 分 ， 接 下 来 我 们 从 一 个 例子 简单 看 下 类 的 编译 过 


程 ， 这 个 过 程 最 终 的 产物 就 是 zend_class_entry ° 


// 示 例 
class Human { 
public $aa = array(1,2,3); 


} 
class User extends Human 
{ 
const type = 110; 
static $name = "uuu"; 
public $uid = 900; 
public $sex = 'w'; 
public function MEconstr uct (H 
} 
public function getName(){ 
return $this->name; 
} 
} 
类 的 定义 组 成 部 分 : 


【修饰 符 (abstract/final)】 class 【类 名 】 [extends 父 类 】 [implements 接 
01,402] 人 


语法 规则 为 : 


Class declaration Statement: 
class_modifiers T_CLASS { $<num>$ = CG(zend_lineno); } 
T_STRING extends_from implements_list backup_doc_comment 
'{' class_statement_list '}' 
{ $$ = zend_ast_create_decl(ZEND_AST_CLASS, $1, $<nu 
m>3, $7, zend_ast_get_str($4), $5, $6, $9, NULL); } 
| T_CLASS { $<num>$ = CG(zend_lineno); } 
T_STRING extends_from implements_list backup_doc_comment 
'{' class_statement_list '}' 
{ $$ = zend_ast_create_decl(ZEND_AST_CLASS, ©, $<num> 
2, $6, zend_ast_get_str($3), $4, $5, $8, NULL); } 


£ 


fi C AJlist AAi A` ena ur? 
class_statement_list: 
class_statement_list class_statement 
{ $$ = zend_ast_list_add($1, $2); } 
| /* e m p Ey k; A 


{ $$ = zend ast Create list(0, ZEND AST_STMT_LIST); 


class_statement: 
variable modifiers property_list ';' 
{ $$ = $2; $$->attr = $1; } 
| T_CONST Class const Lier"? 
{ $$ = $2; RESET_ DOC COMMENT(); } 
| T_USE name list trait adaptations 
{ $$ = zend ast create(ZEND AST_USE_ TRAIT, $2, $3); 


| method modifiers function returns_ref identifier backup_ 
doc Comment '(' parameter_list ')' 
return type method body 
{ $$ = zend ast_ Create decl(ZEND AGT METHOD, $3 | $1 
SE 
zend_ast_get_str($4), $7, NULL, $10, $9); } 








生成 的 抽象 语法 树 : 


kind:ZEND_AST_STMT_LIST | 















BIO 





zend_ast_decl 










zend_ast_decl 










kind:ZEND_AST_CLASS 
name: 类 名 


flags: 类 修饰 符 


kind:ZEND_AST_CLASS 
name: 类 名 
flags: 类 修饰 符 







Human 























Lag 













zval 
S “Human” (IS_STRING) 








kind:ZEND_AST_PROP_ELEM | 








属性 声明 ; 
child[0]: 属性 名 ast 
child[1]: 属性 值 ast 


EE ， 此 节点 有 3 个 子 节点 : 继承 子 节点 、 实 
现 接 口子 节点 、 类 中 声明 表达 式 节点 ， 其 中 child2 为 Zend_ast list， 每 个 常量 定 
义 、 成 员 属 性 、 成 员 方法 对 应 一 个 节点 ， 比 如 上 面 的 例子 中 user 类 有 6 个 子 节点 ， 
这 些 子 节点 类 型 有 3 类 : 常量 声明 (ZEND_AST_CLASS_CONST_DECL)、 属 性 声 
明 (ZEND_AST_PROP_DECL)、 方 法 声明 (ZEND_AST_METHOD) 。 


编译 为 opcodes 操 作为 : zend AI class_decl() ， 它 的 输入 就 是 
ZEND _AST _CLASS 节 点 ， 这 个 函数 中 再 针对 常量 、 属 性 、 方 法 、 继 承 、 接 口 等 
别处 理 。 


void zend compile class decl(zend ast *ast) 
{ 
zend_ast decl *decl = (zend ast decl *) ast; 
zend_ast *extends ast = decl->child[0]; // 继 承 类 节点 ，zen_ast_ 
ZVal 节 点 ， 存 的 是 父 类 名 
zend_ast *implements_ast = decl->child[1]; // 实 现 接 口 节点 
zend_ast *stmt ast = decl->child[2]; // 类 中 声明 的 常量 、 属 性 、 方 法 


zend_string Zname, *lcname; 

zend_class_entry *ce = zend arena alloc(&CG(arena), sizeof(z 
end_class_entry)); 

zend_op *opline; 


lcname = zend_new_interned_string(lcname); 


ce->type = ZEND_USER_CLASS; // 类 型 为 用 户 自 定义 类 
ce->name = name; // 关 名 
zend_initialize_class_data(ce, 1); 


if (extends_ast) { 


//A ERKI] N A AEAN RZEND_FETCH_CLASS opcode 


zend_compile_class_ref(&extends_node, extends_ast, 0); 


J 父 空间 生成 一 条 opcode 
opline = get_ next_op(CG(active op_array)); 
zend_make var_result(&declare node, opline); 


opline->op2_type = IS_CONST; 
LITERAL_STR(opline->op2, lcnanme); 
if (decl->flags & ZEND ACC ANON CLASS) { 


d - 会 了 了 LO y 
EE E 133 
] (月 以 


}else{ 
zend_string *key; 


if (extends_ast) { 
opline->opcode = ZEND_DECLARE_INHERITED_CLASS; // 有 继 
为 这 个 opcode 
opline->extended_value = extends_node.u.op.var; 
} else { 
opline->opcode = ZEND_DECLARE_CLASS; // 无 继承 的 类 为 这 个 


key = zend build_ runtime definition key(lcname, decl->le 
X_pos); // 这 个 key 并 不 是 类 名 ， 而 是 : 类 名 +file+lex_pos 

opline->op1 type = IS_CONST; 

LITERAL_STR(opline->op1，key);// 将 这 个 临时 key 保 存 到 操作 数 1 中 


zend_hash_update_ptr(CG(class_table), key, ce); // 将 半 成 
品 的 zend_class_entry 揪 入 CG(class_table)， 注意 这 里 并 不 是 执行 时 用 于 索引 类 
的 ， 它 的 Key 不 是 类 名 !111 
} 
CcG(active class entry) = ce; 
zend_compile stmt(stmt_ ast); // 将 常量 、 成 员 属性 、 方 法 编译 到 CG(act 
ive_class_entry ) 中 


CG(active_class_entry) = original Ce: 


} 
[E 
上 面 这 个 过 程 主要 操作 是 新 分 配 一 个 Zend_class_entry， 如 果 有 继承 的 话 首先 生成 


ede ， 然 后 生成 一 条 类 声明 的 opcode (这 个 地 方 
与 之 前 3.2.1.3 节 介绍 ee tis 同 ) ， 接 着 就 是 编译 常量 、 属 性 、 成 员 方 法 到 
新 分 配 的 zend_class_entry 中 ， 过 程 还 有 一 个 容 E 地 方 : Wee 
NEE eegen 表 中 ， 这 个 操作 这 是 中 间 步 又， 它 的 
key 并 不 是 类 名 ， 而 是 类 名 后 面 带 来 一 长 串 其 它 的 字符 ， 也 就 是 这 个 时 候 通过 类 名 
在 class_table 是 索引 不 到 对 应 类 的 ， 后 面 我 们 会 说 明 这 样 处 理 的 作用 。 


Human 类 情况 比较 简单 ， 不 再 展开 ， 我 们 看 下 User 类 
在 zend_compile class_decl() 中 执行 到 zend compile stmt(stmt_ast) 这 
步 时 关键 数据 结构 : 


3.4.1 类 


Zend op_array 


opcodes ZEND_FETCH_CLASS 
ZEND_DECLARE_INHERITED_CLASS 


zval 
{IS_STRING) 
"Human" 


parent:null 





接 下 来 我 们 分 别 看 下 常量 、 成 员 属性 、 方 法 的 编译 过 程 。 


(1) 常 量 编译 


常量 的 节点 类 型 为 : ZEND_AST_CLASS_CONST_DECL ， 每 个 常量 对 应 一 个 这 样 的 


节点 ， 处 理 函 数 为 : zend_compile_class_const_decl() 
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void zend_compile class const decl(zend ast *ast ) 
{ 
zend_ast_list *list = zend_ast_get_list(ast); 
zend_class_entry *ce = CG(active class entry); 
EN te GE 
for (i = 0; i < list->children; ++i) { //const 声 明了 多 个 常量 ， 
遍历 编译 每 个 子 节点 
zend_ast *const ast = list->child[i]; 
zend_ast "name aset = const_ast->child[0]; /7/ 和 常量 名 节点 
zend_ast *value ast = const_ast->child[1];/ /常量 值 节点 
zend_string *name = zend_ast_get_str(name_ast); / /第 量 名 
zval Value_zv 


// 取 出 常量 什 


zend_const_ evpr Co zval(&value zv, value ast); 


name = zend new interned_ string_safe(name ) ， 
// 将 常量 添加 到 zend_class_entry.constants_table 哈 希 表 中 
if (zend_hash add(&ce->constants table, name, &value_zv) 


== NULL) { 
} 
} 
} 
(2) 属 性 编译 


属性 节点 类 型 为 : ZEND_AST_PROP_DECL ° SEA 
数 : zend_compile_prop_decl() : 


void zend compile prop decl(zend ast “ast ) 
{ 

zend_ast_list *list = zend_ast_get_list(ast); 

uint32_t flags = list->attr; // 属 性 修饰 符 : static ` public ` priv 
ate- protected 

zend_class_entry *ce = CG(active class entry); 

uint32_t i, children = list->children; 


for (i = 0; i < children; ++i) { 

zend_ast *prop_ast = list->child[i]; // 这 个 节点 类 型 为 : ZEND 
_AST_PROP_ELEM 

zend_ast *name_ast = prop_ast->child[0]; /7/ 属 性 名 节点 

zend_ast *value ast = prop_ast->child[1]; // 届 性 值 节 点 

zend_ast "doc comment_ast = prop_ast->child[2]; 

zend_string *name = zend ast get_str(name ast); // 届 性 名 

zend_string *doc Comment = NULL; 

zval value_zv; 


// 检 查 该 属性 是 否 在 当前 类 中 已 经 定义 
if (zend_hash exists(&ce->properties info, name)) { 
zend_error_noreturn(...); 
} 
if (value ast) { 
// 取 出 默认 值 
zend_const_ evpr Co zval(&value zv, value ast); 
} else { 
// 上 默认 值 为 null 
ZVAL_NULL(&value_zv); 


name = zend_new_interned_string_safe(name); 

// 保 存 属 性 

zend_declare property ex(ce, name, &value zv, flags, doc 
_comment ) ， 


} 


开始 的 时 候 我 们 已 经 介绍 : 属性 值 是 通过 数组 保存 的 ， 然 后 其 存储 位 置 通过 以 属 
性 名 为 key 的 哈 希 表 保存 ， 使 用 的 时 候 先 从 这 个 哈 希 表 中 找到 属性 信息 同时 得 到 属 
性 值 的 保存 位 置 ， 然 后 再 进一步 取出 属性 值 。 


zend_declare_property_ex() 这 步 操 作 就 是 来 确定 属性 的 存储 位 置 的 ， 它 将 属 
性 值 按 静 态 、 非 静态 分 别 保存 在 default_static_ members_table、 
default_properties_table 两 个 数组 中 ， 同 时 将 其 存储 位 置 保存 到 属性 结构 的 offset 
中 。 


//zend_API.c 
ZEND_API int zend declare property ex(zend class entry *ce, zend 
String "name, zval *property, int access type,...) 
{ 
zend_property_info *property_info, *property_info ptr; 


if (ce->type == ZEND_INTERNAL CLASS) {// 内 部 类 


}else{ 
property_info = zend arena alloc(&CG(arena), sizeof(zend 
_property_info)); 
} 


if (access type & ZEND ACC STATIC) { 


/ /ž2 5 h 
// DT ASAA L2- 


Ee info->offset = ce->default_static_members_count 
+H: // 分 配属 性 编号 ， 同 变量 一 样 ， 静 态 属 性 的 就 是 数组 索引 
ce->default_static_members_table = perealloc(ce->default 
_Static_members_table, sizeof(zval) * ce->default_static_members 


_count, ce->type == ZEND_INTERNAL_CLASS) ; 


ZVAL_COPY_VALUE(&ce->default_static_members_table[proper 
ty_info->offset], property); 
if (ce->type == ZEND_USER_CLASS) { 
ce->static_members_table = ce->default_static_member 


/ / 3124 A SH Zë ZS Ak 
/ / IFEF së AE AT M / 





efault_properties_table 数 组 索引 


// 而 是 相对 于 zend_object 大 小 的 (因为 普通 属性 值 数 组 保 





Z 


ct 结构 之 后 ， 这 个 与 局 部 变量 、zend_execute_data 关 系 一 样 ) 

property_info->offset = OBJ_ PROP_TO_OFFSET(ce->default _p 
roperties count); 

ce->default_ properties count++; 

ce->default_ properties table = perealloc(ce->default pro 
perties_ table, sizeof(zval) * ce->default properties count, ce-> 
type == ZEND_INTERNAL CLASS): 


ZVAL_COPY_VALUE(&ce->default_ properties table[OBJ_ PROP_T 
O_NUM(property_info->offset)], property); 


} 


Se Z} I Ek 


// 设 置 property_info 其 它 的 一 些 值 


这 个 操作 中 重点 是 offset 的 计算 方式 ， 静 态 属 性 这 个 比较 好 理解 ， 就 是 
default_static_ members_table 数 组 索引 ; 非 静 态 属性 
zend_class_entry.default_properties_table 保 存 的 只 是 默认 属性 值 ， 我 们 在 下 一 篇 
介绍 对 象 时 再 具体 说 明 object、class 之 间 属 性 的 存储 关系 。 


(3) 成 员 方法 编译 3.4.1.4 一 节 已 经 介绍 过 成 员 方 法 与 普通 函数 的 关系 ， 两 者 没有 很 
大 的 区 别 ， 实 现 上 是 相同 ， 不 同 的 地 方 在 于 成 员 方法 保存 在 各 zend_class_entry 
中 ， 调 用 时 会 有 一 些 可 见 性 方面 的 限制 ， 如 private、public、protected， 还 有 一 些 
专 有 用 法 ， 比 如 this、self 等 ， 但 在 编译 、 执 行 、 存 储 结构 等 方面 两 者 基本 是 一 致 
的 。 


成 员 方法 的 语法 树 根 节点 为 ZEND_AST_METHOD 


void zend_compile_stmt(zend_ast *ast ) 


{ 
switch (ast->kind) { 
case ZEND_AST_FUNC_DECL: // H žr 
case ZEND_AST_METHOD: // 成 员 方 法 
zend_compile func decl(NUL!, ast); 
break; 
} 
} 


如 果 你 还 记得 3.2.1.3 兄 数 处 理 的 过 程 就 会 发 现 函 数 、 成 员 方 法 的 编译 是 同一 个 函 
数 : zend compile func decl() ° 


void zend compile func decl(znode "result, zend ast *ast) 


// 参 数 、 函 数 内 语法 编译 等 不 看 了 ， 与 函数 的 相同 ， 不 清楚 请 看 3.2.1.3 节 


if (is method) { 
zend_bool has_body = stmt_ast != NULL; 
zend_begin_ method_ decl(op_ array, decl->name, has_body); 
} else { 
// 函 数 是 在 当前 空间 生成 了 一 条 ZEND_DECLARE_FUNCTION 的 opcode 
// 然 后 在 zend_do_early_binding() 中 "执行 "了 这 条 opcode， 即 将 函数 
添加 到 CG(function_table) 
zend_begin_ Tune decl(result, op_array, decl); 


过 程 之 前 已 经 说 过 ， 这 里 不 再 重复 ， 我 们 只 看 下 与 普通 函数 处 理 不 同 的 地 
: zend_begin_method_decl() ， 它 的 工作 也 比较 简单 ， 最 重要 的 一 个 地 方 就 
是 将 成 员 方法 的 zendoparray 插 入 zena _class_entry.function_table。 


void zend begin method decl(zend op array "op array, Zend string 
"name, zend bool has_body ) 


{ 


zend_class_entry *ce = CG(active class entry); 


op_array->scope = Ce; 
op_array->function_name = zend_string_copy(name); 


lcname = zend_string_tolower (name); 


lcname = zend_new_interned_string(lcname); 


// 插 入 类 的 function_tab1le 中 
if (zend_hash_add_ptr(&ce->function_table, lcname, op_array) 
== NIE 
zend_error_noreturn(..); 


EE Ej hi Pi hk ERT A o AARET LE 


TEPEL 


上 面 我 们 分 别 介绍 了 常量 、 成 员 属 性 、 方 法 的 编译 过 程 ， 最 后 再 用 一 张 图 总 结 下 整 
个 类 的 编译 过 程 : 


3.4.1 类 






zend_op_array 


compile file TTT | opcodes | 
zend_compile_top_stmt() zend_do_early_binding!() 
zend_compile_stmt!() 


Ry 
o END_AST_CLASS_CONST_DECL 
e by ZEND_AST_PROP_DECL 
ef ND_AST_METHOD 


v zend_class_entry 


default_properties_table 
zend_compile_class_decl() default_static_members_table 
- properties_info 
constants_table 
创建 zend_class_entry , 


function_table 


编 详 
成 员 必 性、 常 其 、 成 员 方 法 





图 中 还 有 一 步 我 们 没有 说 到 ` zend_do_early_binding() ， 这 是 非常 关键 的 一 步 ， 
如 果 你 看 过 3.2.1.3 一 节 那 么 对 这 个 函数 应 该 不 陌生 ， 没 错 ， 在 函数 编译 的 最 后 一 步 
也 会 调用 这 个 防 数 ， 它 的 作用 是 将 编译 的 function 以 函数 名 为 key 添 加 到 
CG(function_table) 中 ， 同 样 地 上 面 整个 过 程 中 你 可 能 发 现 所 有 的 操作 都 是 针对 
zend_class_entry， 并 没有 发 现 最 后 把 它 存 到 什么 位 置 了 ， 这 最 后 的 一 步 就 是 把 
zend_class_entry 以 类 名 为 key 添 加 到 CG(class_table)。 
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void zend do early _ binding(void) 


switch (opline->opcode) { 


case ZEND_DECLARE_CLASS: 
if (do bind class(CG(active op_array), opline, CG(cl 


ass_table), 1) == NULL) { 


return; 
} 
table = CG(class_ table); 
break; 


case ZEND_DECLARE_ INHERITED_CLASS: 
// 比 较 长 ， 后 面 单独 摘出 来 


break; 


// 将 那个 以 (类 名 +file+lex_pos ) 为 key 的 值 从 CG(class_table) 中 删除 
// 同 时 删除 两 个 相关 的 Literals : key、 类 名 

zend_hash_del(table, Z_STR_P(CT_CONSTANT(opline->0p1))); 
zend_del_literal(CG(active_op_array), opline->op1.constant); 
zend_del_literal(CG(active_op_array), opline->op2.constant); 
MAKE_NOP(opline); // 将 ZEND_DECLARE_CLASS 或 ZEND_DECLARE_INHERI 


TED_CLASS 的 opcode 置 为 室 ， 表 示 已 执行 


} 


这 个 地 方 会 有 两 种 情况 ， 上 面 我 们 说 过 ， 如 果 是 普通 的 没有 继承 的 类 定义 会 生成 一 


条 


ZEND_DECLARE_CLASS 的 opcode， 而 有 继承 的 类 则 会 生 


成 ZEND_FETCH_CLASS ` ZEND_DECLARE_INHERITED_CLASS 两 条 opcode， 这 两 
种 有 很 大 的 不 同 ， 接 下 来 我 们 具体 看 下 : 


3.4.1 类 


(1) 无 继承 类 : 这 种 情况 直接 调用 do_bind_class() 处 理 了 。……cZEND Ap 
zend class entry do_bind_class( const zend_op_array op_array, const 
zend_op opline, Hash Table class_table, zend bool compile time) { if 
(compile time){ /编译 时 /还 记得 zend_compile_class_decl() 中 有 一 个 把 
zend _class_entry 以 (类 名 +file+lex_pos) // 为 key 存 入 CG(class_table) 的 操作 

吗 ? 那个 key 的 存储 位 置 保存 在 op1 中 了 // 这 里 就 是 从 op_array.literals 中 取出 那 
个 key op1 = CT_CONSTANT_EX(op_array, opline->op1.constant); //op2 为 类 
名 op2 = CT_CONSTANT_ EX(op_array, opline->op2.constant); } else { /运行 
时 ， 如 果 当 前 类 在 编译 阶段 没有 编译 完成 则 也 有 可 能 在 zend_execute 执 行 阶段 
完成 op1 = RT_CONSTANT(op_array, opline->op1); op2 = 
RT_CONSTANT(op_array, opline->op2); }// 从 CG(class_table) 中 取出 

Zend dass entry if ((ce = zend_hash find_ptr(class table, Z STR _P(op1))) 
== NULL) { zend error_noreturn(E COMPILE ERROR, ...); return NULL; } 
ce->refcount++; // 这 里 加 1 是 因为 CG(class_table) 中 多 了 一 个 bucket 指 向 这 个 
Ce 了 


// 以 标准 类 名 为 key 将 zend_class_entry 插 入 CG(class_table) 
// 这 才 是 后 面 要 用 到 的 类 
if (end hash add ptr(class table, Z_STR_P(o0op2), ce) == NULL) { 


// 插 入 失败 
return NULL; 

}else{ 
// 播 入 成 功 
return Ce: 

} 

} 
> 这 个 函数 就 是 将 类 以 ”正确 的 类 名 为 key 插 入 到 CG(class_table)， 这 一 步 完 


成 后 `*:zend_do_early_binding() .后 面 就 将 `*ZEND_DECLARE_CLASS ` 这 条 opcode 
置 为 0 了 ， 这 样 在 运行 时 就 直接 跳 过 此 opcode 了 ， 现 在 清楚 为 什么 执行 时 会 有 很 多 为 0 
的 opcode 了 吧 ? 


_ (2) 有 继承 类 : 这 种 类 是 有 继承 的 父 类 ， 它 的 定义 有 两 条 opcode : `ZEND_FE 
TCH_CLASS` ` `ZEND_DECLARE_INHERITED_CLASS `， 上 面 我 们 一 张 图 画 过 示例 中 
ser 类 编译 的 情况 ， 我 们 先 看 下 它 的 opcode 再 作 说 明 。 


171 


III. /Zmg/ast Tetch class ong 


C 
case ZEND DECLARE INHERITED CLAGS: 
{ 
zend_op *fetch_class_opline = opline-1; 
zval *parent_name; 
zend_class_entry *ce; 


parent_name = CT_CONSTANT(fetch_class_opline->0p2); // 父 类 名 


// 在 EG6(class_table) 中 查找 父 类 (注意 :EG(class_table) 与 C6(class_t 
able ) 指 向 同一 个 位 置 ) 
if (((ce = zend Lookup class ex(Z_STR_P(parent_name), parent 
name + 1, 0)) == NULL) || ...) { 
// 没 找到 父 类 ， 有 可 能 父 类 没有 定义 、 有 可 能 父 类 在 子 类 之 后 定义 的 ,.,.，,， 
if (CG(compiler_options) & ZEND_COMPILE_DELAYED_BINDING) 


{ 
// 将 opcode 重 置 为 ZEND_DECLARE_INHERITED_CLASS_DELAYED 
opline->opcode = ZEND_DECLARE_INHERITED_CLASS_DELAYE 
D; 
opline->result_type = IS_UNUSED; 
opline->result.opline_num = -1; 
} 
return; 
} 
// 注 册 继 承 类 


if (do_bind_inherited_class(CG(active_op_array), opline, CG( 
class_table), ce, 1) == NULL) { 
return; 


// 清 理 无 用 的 opcode : ZEND_FETCH_CLASS ， 重 置 为 0， 执行 时 直接 跳 过 

zend_del literal(CG(active op _array), fetch class opline->op 
2.constant); 

MAKE_NOP(fetch_class_opline); 


table = CG(class_table); 
break; 


3.4.1 类 


通过 上 面 的 处 理 我 们 可 以 看 到 ， 首 先是 查找 父 类 : 


1) 如 果 父 类 没有 找到 则 将 opcode 置 

为 ZEND_DECLARE_INHERITED_CLASS_DELAYED ， 这 种 情况 下 当前 类 是 没 
有 编译 到 CG(class - ， 也 就 是 这 个 时 候 这 个 类 是 无 法 使 用 的 ， 
在 执行 的 时 候 会 再 次 尝试 这 个 过 程 ， 那 个 时 候 如 果 找 到 父 类 了 则 再 加 入 
EG(class_table) ; 


2) 如 果 找 到 父 类 了 则 与 无 继承 的 类 处 理 一 样 ， 将 zend_class_entry 添 加 到 

CG(class_table) 中 ， 然 后 将 对 应 的 两 条 opcode 删 掉 ， 除 了 这 个 外 还 有 一 个 
dad 重要 的 操作 : SSES ， 这 里 主要 是 进行 属性 、 常 
、 成 员 方法 的 合并 、 找 贝 ， 这 个 过 程 这 里 暂 不 展开 ，《3.4.3 继 承 》 一 节 


再 作 具 体 说 明 。 
总 结 


上 面 我 们 介绍 了 类 的 编译 过 程 ， 整 个 流程 东西 比较 但 并 不 复杂 ， 主 要 围绕 

zend _class_entry 进 行 的 操作 ， 另 外 我 们 知道 了 类 插入 EG(class_table) 的 过 程 ， 这 
个 相当 于 类 的 声明 在 编译 阶段 提前 "执行 "了 ， 也 有 可 能 因为 父 类 找 不 到 等 原因 延至 
运行 时 执行 ， 清 楚 了 这 个 过 程 你 应 该 能 明白 下 面 这 些 例子 为 什么 有 的 可 以 运行 而 有 
的 则 报错 的 原因 了 吧 ? 
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// 情 况 1 
new A(); 


class A extends Bf{} 


class B{} 
完整 opcodes : 
1 ZEND_NEW => 执行 到 这 报错 ， 因 为 此 时 A 因 为 找 不 到 B 尚 


未 编译 进 EG(class_table) 

2 ZEND_DO_FCALL 

3 ZEND_FETCH_CLASS 

4 ZEND_DECLARE INHERITED_CLASS 

5 ZEND DECLARE CLAGS => 注册 class B 
6 ZEND_RETURN 


实际 执行 顺序 : 5->1->2->3->4->6 


// 情 况 2 
class A extends Bf{} 
class B{} 


完整 opcodes : 
1 ZEND_FETCH_CLASS 

2 ZEND_DECLARE_INHERITED_CLASS => 注册 class A， 此 时 已 经 可 以 找到 B 
3 ZEND DECLARE CLASS => 注册 class B 

4 ZEND_NEW 

5 ZEND_DO_FCALL 

6 ZEND_RETURN 


实际 执行 顺序 : 3->1->2->4->5->6， 执 行 到 4 时 A 都 已 经 注册 ， 所 以 可 以 执行 


// 情 况 3 

class A extends Bf{} 
class B extends C{} 
class C{} 


完整 opcodes : 

1 ZEND_FETCH_CLASS => 找 不 到 B, 直接 报错 

2 ZEND_DECLARE_INHERITED_CLASS 

3 ZEND_FETCH_CLASS 

4 ZEND_DECLARE_INHERITED_CLASS => 注册 class B， 此 时 可 以 找到 C， 所 以 注 
册 成 功 

5 ZEND DECLARE_ CLASS => He Ke 

6 ZEND_NEW 

7 ZEND_DO_FCALL 

8 ZEND_RETURN 





实际 执行 顺序 : 5->1->2->3->4->5->6->7->8， 执 行 到 1 发 现 还 是 找 不 到 父 类 B， 报 


错 


3.4.1.6 内 部 类 


前 面 我 们 介绍 了 类 的 基本 组 成 以 及 用 户 自 定义 类 的 编译 ， 除 了 在 PHP 代 码 中 可 以 定 
义 一 个 类 ， 我 们 也 可 以 在 内 核 或 扩展 中 定义 一 个 类 (与 定义 内 部 函数 类 似 )， 这 种 类 
称 之 为 内 部 类 。 


相 比 于 用 户 自 定义 类 的 编译 实现 ， 内 部 类 的 定义 比较 简单 ， 也 更 加 灵活 ， 可 以 进行 
一 些 个 性 化 的 处 理 ， 比 如 我 们 可 以 定义 创建 对 象 的 钩子 函数 : create object ， 
从 而 在 对 象 实例 化 时 调用 我 们 自己 定义 的 函数 完成 ， 这 样 我 们 就 可 以 进行 很 多 其 它 
的 操作 。 


内 部 类 的 定义 简单 的 概括 就 是 创建 一 个 zend_class_entry 结 构 ， 然 后 插入 到 
EG(class_table) 中 ， 涉 及 的 操作 主要 有 : 


e 注册 类 到 符号 表 
e 实现 继承 、 接 口 
e 定义 常量 

e 定义 成 员 属 性 


e 定义 成 员 方法 


实际 这 些 与 用 户 自 定义 类 的 实现 相同 ， 只 是 内 部 类 直接 调用 相关 API 完 成 这 些 操 
作 ， 具 体 的 API 接 口 本 节 不 再 介绍 ， 我 们 将 在 后 面 介 绍 扩展 开发 一 草 中 再 系统 说 
明 。 


3.4.2 S 


对 象 是 类 的 实例 ，PHP 中 要 创建 一 个 类 的 实例 ， 必 须 使 用 new 关键 字 。 类 应 在 被 
实例 化 之 前 定义 〈 某 些 情况 下 则 必须 这 样 ， 比 如 3.4.1 最 后 那 几 个 例子 ) 。 


3.4.2.1 对 象 的 数据 结构 


对 象 的 数据 结构 非常 简单 : 
typedef struct _zend_object zend_object; 


struct _zend_object { 
zend_refcounted_h gc; // 引 用 计数 
IER ke E handle; 
zend_class_entry *ce; //P % Žž 
const zend_object_handlers *handlers; //s Sr 
HashTable *properties; 
zval properties_table[1]; // 普 通 属性 值 数 组 


A 


几 个 主要 的 成 员 : 


(1)handle: 一 次 request 期 间 对 象 的 编号 ， 每 个 对 象 都 有 一 个 唯一 的 编号 ， 与 创建 先 
后 顺序 有 关 ， 主 要 在 垃圾 回收 时 用 ， 下 面 会 详细 说 明 。 


(2)ce: 所 属 类 的 zend_class_entry。 
(3)handlers: 这 个 保存 的 对 象 相关 操 作 的 一 些 函数 指针 ， 比 如 成 员 属 性 的 读 写 、 成 
员 方法 的 获取 、 对 象 的 销毁 /克隆 等 等 ， 这 些 操作 接口 都 有 默认 的 函数 。 


struct _zend_object_handlers { 


TE offset; 
zend_object_free_obj_t free_obj; // 释 放 对 象 
zend_object_dtor_obj_t dtor_obj; // 销 毁 对 象 
zend_object_clone_obj_t ClLone_obj ;// 复 制 对 象 
Zend obiect read propertv read_property; // 读 取 


成 员 属 性 


zend_object_write property E 


成 员 属 性 


// 上 默认 值 处 理 handler 
ZEND_API zend object handlers std object_ handlers = { 


Dr 


O, 

zend_object_std_dtor, 
zend_objects_destroy_object, 
zend_objects_clone_obj, 
zend_std_read_property, 
zend_std_write_property, 
zend_std_read_dimension, 
zend_std_write_dimension, 


zend_std_get_property_ptr_ptr, 
Kë 

NULL, 

NULL, 

zend_std_has_property, 
zend_std_unset_property, 
zend_std_has_dimension, 
zend_std_unset_dimension, 


zend_std_get_properties, 
zend_std_get_method, 
NULL, 
zend_std_get_constructor, 


zend_std_object_get_class_name, 
zend_std_compare_objects, 


zend_std_cast_object_tostring, 
NULL, 

zend_std_get_debug_info, 
zend_std_get_closure, 
zend_std_get_gc, 

NULL, 

NULL, 


D 
本 
D 
本 
z 


ZE 


ve 
GE 
CS 
T 
G 


D 
D 
Gë 
ES 


全 
AC 


7 
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write_property;//1% rx 


free_obj */ 
dtonrsobj a / 
clonetobj y 
read_property */ 
write_property */ 
read_dimension */ 
write_dimension */ 


getapropertySptns 


get */ 

set */ 
has_property */ 
unset_property */ 
has_dimension */ 
unset_dimension */ 


get_properties */ 
get_method */ 
Call methodi "4 
det Constructor */ 


det Class name */ 
compare_objects */ 


cast_object */ 
councsekements "4 
get_debug_info */ 
get_closure */ 
get_gc */ 
do_operation */ 
compare */ 


Note: 这 些 handler 用 于 操作 对 象 (如 : 设置 、 读 取 属 性 )，std_object_handlers 
是 PHP 定 义 的 默认 、 标 准 的 处 理 函 数 ， 在 扩展 中 可 以 自 定义 handler， 比 如 : 重 
定义 write_property， 这 样 设 置 一 个 对 象 的 属性 时 将 调用 扩展 自己 定义 的 处 理 函 
数 ， 让 扩展 拥有 了 更 高 的 控制 权限 。 








需要 注意 的 是 : const zend object _handlers handlers， 这 里 的 handlers 指 针 加 
了 const 修 饰 符 ，const 修 饰 的 是 handlers* 指 向 的 对 象 ， 而 不 是 handlers 指 针 本 
身 ， 所 以 扩展 中 可 以 将 一 个 对 象 的 handlers 修 改 为 另 一 个 
Zend_object_handlers 指 针 ， 但 无 法 修改 zend_object_handlers 中 的 值 ， 比 
如 : obj->handlers->write_property = xxx 将 报错 ， 而 : obj- 
>handlers = xxx 则 是 可 以 的 。 
(4)properties: 普通 成 员 属 性 哈 希 表 ， 对 象 创建 之 初 这 个 值 为 NULL， 主 要 是 在 动态 
定义 属性 时 会 用 到 ， 与 properties_table 有 一 定 关系 ， 下 一 节 我 们 将 单独 说 明 ， 这 里 
暂时 忽略 。 
(5)properties_table: 成 员 属 性 数组 ， 还 记得 我 们 在 介绍 类 一 节 时 提 过 非 静 态 属 性 
存储 在 对 象 结构 中 吗 ? 就 是 这 个 properties_table ! 注意 ， 它 是 一 个 数 
组 ， zend_object 是 个 变 长 结构 体 ， 分 配 时 会 根据 非 静 态 属 性 的 数量 确定 其 大 
ge 


3.4.2.2 对 象 的 创建 


PHP 中 通过 new + 类 名 创建 一 个 类 的 实例 ， 我 们 从 一 个 例子 分 析 下 对 象 创建 的 过 
程 中 都 有 哪些 操作 。 


class my_class 


{ 
const TYPE = 90; 
public $name = "pangudashu"; 
public $ids = array(); 

} 


$obj = new my_class(); 


N 
Ne 


类 的 定义 就 不 用 再 说 了 ， 我 们 只 看 $obj = new my_class(); Zéi: RREA 
包括 两 部 分 : 实例 化 类 、 赋 值 ， 下 面 看 下 实例 化 类 的 语法 规则 : 


new_expr: 
T_NEW class_name_reference ctor_arguments 
{ $$ = zend_ast_create(ZEND_AST_NEW, $2, $3); } 
| T_NEW anonvmous Class 
{ $$ = $2; } 


从 语法 规则 可 以 很 直观 的 看 出 此 语法 的 两 个 主要 部 分 : 类 名 、 参 数列 表 ， 编 译 器 在 
解析 到 实例 化 类 时 就 创建 一 个 ZEND_AST_NEW 类 型 的 节点 ， 后 面 编译 为 opcodes 的 
过 程 我 们 不 再 细 究 ， 这 里 直接 看 下 最 终生 成 的 opcodes。 


zend_op_array 


ZEND_NOP 


ZEND NEW _SPEC_CONST_HANDLER 


ZEND_DO_FCALL 
ZEND DO FCALL SPEC_HANDLER 





你 会 发 现实 例 化 类 产生 了 两 条 opcode( 实 际 可 能 还 会 更 多 ) : ZEND NEW: 
ZEND_DO_FCALL， 除 了 创建 对 象 的 操作 还 有 一 条 函数 调用 的 ， 没 错 ， 那 条 就 是 
调用 构造 方法 的 操作 。 


根据 opcode、 操 作 数 类 型 可 知 ZEND_NEW 对 应 的 处 理 handler 
为 ZEND_NEW_SPEC_CONST_HANDLER() : 





static int ZEND NEW_ SPEC CONST HANDL ER zend execute data “execut 
e data 
{ 

zval object_zval; 

zend_function *constructor; 

zend_class_entry *ce; 


// 第 1 步 : 根据 类 名 查找 zend_class_entry 
ce = zend fetch class by name(Z STR_ P(EX CONSTANT(opline->op 
1)), ...); 


// 第 2 步 : 创建 & 初 始 化 一 个 这 个 类 的 对 象 
if (UNEXPECTED(object_init_ex(&object_zval, ce) != SUCCESS ) ) 


HANDLE_EXCEPTION(); 
} 
// 第 3 步 : 获取 构造 方法 
// 获 取 构 造 方法 函数 ， 实 际 就 是 直接 取 zend_class_entry.constructor 
//get_constructor => zend_std get constructor() 
constructor = Z OBJ HT(object_ zval)->get constructor(Z 0BJ(o 
bject_zval)); 


if (constructor == NULL) { 


// 此 opcode 之 后 还 有 传 参 、 调 用 构造 方法 的 操作 

// 所 以 如 果 没 有 定义 构造 方法 则 直接 跳 过 这 些 操 作 

ZEND_VM_JMP(OP_JMP_ADDR(opline, opline->o0p2)); 
}else{ 

// 定 义 了 构造 方法 

// 初 始 化 调用 构造 函数 的 Zend_execute_data 


zend_execute data *call = zend vm stack push call frame( 





WE 
call->prev_execute_data = EX(call); 
EX(call) = call; 


从 上 面 的 创建 对 象 的 过 程 看 整个 流程 主要 分 : 首先 是 根据 类 名 在 
EG(class_table) 中 查找 对 应 zend_class e 、 然 后 是 创建 并 初始 化 一 个 对 象 、 最 
后 是 初始 化 调用 构造 函数 的 zend_execute data: 


我 们 再 具体 看 下 第 2 步 创建 、 初 始 化 对 象 的 操 
作 ， object_init_ex(&object_zval, ce) 最 终 调 用 的 


是 _object_and_properties_init() ° 


//zend_ API.c 
ZEND_API int _object_and_properties init(zval *arg, zend class e 
ntry "class type, ...) 








{ 
// 检 查 关 十 否 可 以 实例 化 
// 用 户 自 定 S object 都 是 NULL 
// 只 有 PHP 几 1 J 类 有 这 个 值 ， 比 如 exception、error 和 村 
if (class_type->create_object == NULL) { 
/ Ia AA 
ZVAL_OBJ(arg, zend_objects_new(class_type)); 
// 初 始 化 成 员 属 性 
SE properties_init(Z_0BJ_P(arg), class_type); 
} else ` 
// 调 用 自 定 义 的 创建 object 的 钧 子 函 数 
ZVAL_OBJ(arg, class_type->create_object(class_type)); 
} 
return SUCCESS; 
} 


还 记得 上 一 节 介 绍 zend_class_entry 时 有 几 个 自 定义 的 钧 子 函 数 吗 ? 如 果 定 义 

1 create_object 这 个 地 方 就 会 调用 自 定义 的 函数 来 创建 zend_object， 这 种 情况 
常 发 生 在 内 核 或 扩展 中 定义 的 内 部 类 (当然 用 户 自 定义 类 也 可 以 修改 ， 但 一 般 不 会 

Ss ; 用 户 自 定义 类 在 这 个 地 方 又 具体 分 了 两 步 : 分 配对 象 结 构 、 初 始 化 成 员 属 

性 ， 我 们 继续 看 下 这 里 面 的 处 理 。 


(1) 分 配对 象 结构 :zend_object 


//zend_objects.c 
ZEND_API zend_object *zend_objects_new(zend_class_entry *ce) 


{ 


na 


// 分 配 zend_object 


zend_object *object = emalloc(sizeof(zend_object) + zend_obj 


ect_properties_size(ce)); 


zend_object_std_init(object, ce); 

// 设 置 对 象 的 操作 handler 为 std_object_handlers 
object->handlers = &std object_ handlers; 
return object; 


有 个 地 方 这 里 需要 特别 注意 : 分 配对 象 结构 的 内 存 并 不 仅仅 是 zendobject 的 大 小 。 
我 们 在 3.4.2.1 介 绍 propertiestable 时 说 过 这 是 一 个 变 长 数组 ， 它 用 来 存放 非 静 态 属 


性 的 值 ， 所 以 分 配 zendobject 时 需要 加 上 非 静 态 属 性 所 占用 的 内 存 大 


小 : zeng obiect properties size() ， 根 据 普 通 非 静态 属性 个 数 确定 ， 如 果 
没有 定义 get()、set() 等 魔术 方法 则 占用 内 存 就 是 :_ 属 性 数 *sizeof(zval) ， 如 果 定 义 
了 这 些 魔术 方法 那么 会 多 分 配 一 个 Zzval 的 空间 ， 这 个 多 出 来 zval 的 用 途 下 面 介绍 成 


员 属 性 的 读 写 时 再 作 说 明 。 


另外 这 里 还 有 一 个 关键 操作 : 将 object 编 号 并 插入 


EG(objects_store).object_buckets 数 组 。zend_object 有 个 成 员 : handle， 这 个 
值 在 一 次 request 期 间 所 有 实例 化 对 象 的 编号 ， 每 调用 zend_objects_new() 实例 


化 一 个 对 象 就 会 将 其 插入 到 object buckets 数 组 中 ， 其 在 数组 中 的 下 标 就 是 
handle。 这 个 过 程 是 在 zend_objects_store_put() 中 完成 的 。 


//zend objects_API.c 
ZEND API void zend obiects store put(zend_object objecty) 
{ 


int handle; 


if (EG(objects_store).free_list_head != -1) { 
// 这 种 情况 主要 是 gc 中 会 将 中 间 一 些 object 销 毁 ， 空 出 一 些 pucket 位 置 
// 然 后 free_lList_head 就 指向 了 第 一 个 可 用 的 bucket 位 置 
// 后 面 可 用 的 保存 在 第 一 个 空闲 bucket 的 handle 中 
handle = EGiobiects store). Tree List head; 
CGiobiects store) Tree list head = GET_0BJ_BUCKET_NUMBER 
(EG(objects_store).object_buckets[handle]); 
} else { 
if (EG(objects_store).top == EG(objects_store).size) { 
VA E 
} 
// 弟 增加 1 
handle = EG(objects_ store).top++; 
} 
object->handle = handle; 
// 存 入 object_buckets 数 组 
EG(objects_store).object_buckets[handle] = object; 


typedef struct _zend_objects_store { 

zend_object **object_buckets; // 对 孚 数组 

uint32_t top; // 当 前 全 部 object 数 

uint32_t size; //object_buckets 大 小 

int free_list_head; // 第 一 个 可 用 object_buckets 位 置 
Lzend obiects store: 


将 所 有 的 对 象 保存 在 EG(objects_store),object_buckets 中 的 目的 是 用 于 垃圾 
回收 (不 确定 是 不 是 还 有 其 它 的 作用 )， 防 止 出 现 循环 引用 而 导致 内 存 泄 漏 的 问题 ， 
这 个 机 制 后 面 章 节 会 单独 介绍 ， 这 里 只 要 记得 有 这 么 个 东西 就 行 了 。 


(2) 初 始 化 成 员 属 性 


ZEND API void object properties init(zend object *object, zend_c 
Jess entrv *class_type) 
{ 
if (class type->default properties count) { 
zval *src = class type->default properties_ table; 
zval *dst = object->properties table; 
zval *end = src + Class type->default properties count; 


// 将 非 静 态 铅 性 值 从 : 
//zend_class_entry.default _ properties table 复 制 到 zend_obj 
ect.properties table 


do { 
ZVAL_COPY(dst, src); 
SrC++， 
dst++; 

} while (src != end); 


object->properties = NULL; 


这 一 步 操 作 是 将 非 静 态 属 性 的 值 

从 zend class entry.default properties table -> 
zend_object.properties_table ， 当 然 这 里 不 是 硬 拷贝 ， 而 是 浅 复 制 (增加 引 
用 )， 两 者 当前 指向 的 value 还 是 同一 份 ， 除 非 对 象 试图 改写 指向 的 属性 值 ， 那 时 将 
触发 写 时 复制 机 制 重新 拷贝 一 份 。 


上 面 那个 例子 ， 类 有 两 个 普通 属性 ` $name、$ids， 假 如 我 们 实例 化 了 两 个 对 象 ， 
那么 zend_class_entry 与 zend_object 中 普通 属性 值 的 关系 如 下 图 所 示 。 


Zend dass entrw Zend obiect 1 Zend obiect 3 


HashTable properties_info 


zval *default_properties_table 


zval *default_static_members_table 


| zval property_1 zval property 1 
= zval property_2 zval property_2 
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value.str 





Value.str 









Value.arr Value.arr 


以 上 就 是 实例 化 一 个 对 象 的 过 程 ， 总 结 一 下 有 具体 的 步骤 : 


e Step1: 首先 根据 类 名 去 EG(class_table) 中 找到 具体 的 类 ， 即 zend_class_entry 

e step2: 分 配 zend_object 结 构 ， 一 起 分 配 的 还 有 普通 非 静 态 属 性 值 的 内 存 

e Step3: 初始 化 对 象 的 非 静 态 属 性 ， 将 属性 值 从 zend_class_entry 浅 复制 到 对 象 
中 

e Step4: 查找 当前 类 是 否定 义 了 构造 函数 ， 如 果 没 有 定义 则 跳 过 执行 构造 函数 的 
opcode， 否 则 为 调用 构造 函数 的 执行 进行 一 些 准备 工作 (分 配 
zend execute data) 

o step5: 实例 化 完成 ， 返 回 新 实例 化 的 对 象 (如 果 返 回 的 对 象 没有 变量 使 用 则 直 
接 释放 掉 了 ) 


3.4.2.3 成 员 属 性 的 读 写 


普通 成 员 属性 的 读 写 处 理 handler 分 别 为 zend_object.handlers 中 的 : 
read_property、write_property， 默 认 对 应 的 函数 为 : zend _ std read _property()、 
zend_std_write_property()， 访 问 获取 修改 一 个 普通 成 员 属 性 时 就 是 由 这 两 个 函数 
完成 的 。 

(1) 读 取 属 性 : 


通过 对 象 或 方法 内 通过 $this 访 问 属性 ， 比 如 : echo $obj->name; ， 具 体 的 实 
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zval “zend std read property(zval *object, zval "member, int typ 
e, void "cache slot, zval *rv) 


zend_object *zobj; 
uint32_t property_offset; 


zobj = Z_0BJ_P(object); 


// 根 据 属 性 名 在 zend_class.zend_property_info 中 查找 zend_property_ 
Info， 得 到 属性 值 在 zend_object 中 的 存储 offset 

// 注 意 : zend_ get_property_offset() 会 对 属性 的 可 见 性 (pubLic、priva 
te、protected ) 进 行 验 十 

property_offset = zend_get_property_offset(zobj->ce, Z_STR_P 
(member), (type == BP_VAR_IS) || (zobj->ce-> get != NULL), cach 
e_slot); 


if (EXPECTED(property_offset != ZEND WRONG PROPERTY_OFFSET)) 


if (EXPECTED(property_offset != ZEND DYNAMIC PROPERTY_OF 
FSET)) { 
// 普 通 属性 ， 直 接 根据 offset 取 到 属性 值 : ((zval*)((char*)(zo 
bj) + offset)) 
retval = 0BJ_PROP(zobj，property_offset ) ， 
} else if (EXPECTED(zobj->properties != NULL)) { 
// 动 态 属 性 的 情况 ， 没 有 在 类 中 显 式 定义 的 属性 ， 后 面 一 节 会 单独 介绍 


} 
} else if (UNEXPECTED(EG(exception))) { 


// 没 有 找到 属性 
// 调 用 魔术 方法 : _isset() 
if ((type == BP_VAR_IS) Së zobj->ce-> isset) { 


// 调 用 魔术 方法 : oer? 
if (zobj->ce-> get) { 
zend_ Long *guard = zend_get_property_guard(zobj, Z_STR_P 
(member ) ) ， 
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if(!((*guard) & IN_ISSET)){ 
*guard |= IN_ISSET; 
zend_std_call_issetter(&tmp_object, member, &tmp_res 
ult); 


*guard &= ~IN_ISSET; 


普通 成 员 属 性 的 查找 比较 容易 理解 ， 首 先是 从 zend_class 的 属性 信息 哈 希 表 中 找到 
zend_property_info， 并 判断 其 可 见 性 (public、private、protected)， 如 果 可 以 访问 
则 直接 根据 属性 的 offset 在 zend_object.properties_table 数 组 中 取 到 属性 值 ， 如 果 没 
有 在 属性 哈 希 表 中 找到 且 定 义 了 get() 魔 术 方 法 则 会 调用 get() 方 法 处 理 。 


Note: 如 果 类 存在 get() 方 法 ， 则 在 实例 化 对 象 分 配属 性 内 存 

( 即 :properties_table) 时 会 多 分 配 一 个 zval， 类 型 为 HashTable， 每 次 调用 
get($var) 时 会 把 输入 的 $var 名 称 存 入 这 个 哈 希 表 ， 这 样 做 的 目的 是 防止 循环 调 
用 ， 举 个 例子 : 


public function __get($var) { return $this->$var; } 


这 种 情况 是 调用 get() 时 又 访问 了 一 个 不 存在 的 属性 ， 也 就 是 会 在 get() 方 法 中 递 
妇 调 用 ， 如 果 不 对 请 求 的 $var 作 判断 则 将 一 直 着 归 下 去 ， 所 以 在 调用 get() 前 首 
先 会 判断 当前 $var 是 不 是 已 经 在 get() 中 了 “， 如 果 是 则 不 会 再 调用 get()， 否 则 会 
把 $var 作 为 key 插 入 那个 HashTable， 然 后 将 哈 希 值 设 置 为 : *guard |= 
IN_ISSET， 调 用 完 get() 再 把 哈 希 值 设置 为 : *guard &= ~IN_ISSET ° 


这 个 HashTable 不 仅仅 是 给 get() 用 的 ， 其 它 魔术 方法 也 会 用 到 ， 所 以 其 哈 希 值 
类 型 是 zend ， 不 同 的 魔术 方法 占 不 同 的 bit 位 ; 其 次 ， 并 不 是 所 有 的 对 象 
都 会 额外 分 配 这 个 HashTable， 在 对 象 创 建 时 会 根据 
zend_class_entry.ce_flags 是否 包含 ZEND ACC USE _ GUARDS 确定 是 否 
分 配 ， 在 类 编译 时 如 果 发 现 定义 了 get()、set()、unset()、__isset() 方 法 则 会 将 
ce flags 打 上 这 个 掩 码 。 


(2) 设 置 属性 : 
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与 读 取 属 性 不 同 ， 设 置 属性 是 对 属性 的 修改 操作 ， 比 如 ` $obj->name = 
"pangudashu"; ， 看 下 具体 的 实现 过 程 : 


ZEND_API void zend_ std write property(zval *object, zval "member 
, zval value Vordi $ scache slot) 


{ 
zend_object *zobj; 
uint32_t property_offset; 
zobj = Z OBJ P(object); 
// 与 读 取 属 性 相同 
property_offset = zend_get_property_offset(zobj->ce, Z_STR_P 
(member), (zobj->ce-> set != NULL), Cache Slot) 
if (EXPECTED(property_offset != ZEND_WRONG_PROPERTY_OFFSET) ) 
d 
if (EXPECTED(property_offset != ZEND DYNAMIC PROPERTY_OF 
FSET)) { 


// 普 通 属 性 


variable ptr = 0BJ_PROP(zobj，property_offset ) ， 
if (Z_TYPE_P(variable ptr) != IS UNDEF) { 
goto found; 


} 
} else if (EXPECTED(zobj->properties != NULL)) { 


// 动 态 属性 哈 希 表 已 经 初始 化 ， 直 接 插入 zobj->properties 哈 布 表 


f 
EEEN TAN 
后 面 单独 介绍 


if ((variable_ptr = 
Z_STR_P(member))) != NULL) { 
found: 


zend_hash_find(zobj->properties, 


// 赋 值 操 作 ， 与 普通 变量 的 操作 相同 


H 


zend_assign_to_variable(variable_ptr, value, IS 
CV); 


goto exit; 


} else if (UNEXPECTED(EG(exception))) { 


// 没 有 找到 属 
人 
if (zobj->ce- o { 
// 与 ”get() 相 同 ， 也 会 判断 set 的 变量 名 是 否 已 经 在 ”set() 中 


ZVAL_COPY(&tmp_object, object); 

(*guard) |= IN_SET; // 防 止 循环 set() 

if (zend_std call setter(&tmp_object, member, value) != 
SUCCESS) { 


} 
(*guard) &= ~IN_SET; 
}else if (EXPECTED(property_offset != ZEND_WRONG_PROPERTY_OF 
FSET)) { 


首先 与 读 取 属 性 的 操作 相同 : 先 找到 zend_property_info， 判 断 其 可 见 性 ， 然 后 根 
据 offset 取 到 具体 的 属性 值 ， 最 后 对 其 进行 赋值 修改 。 


Note: 属性 读 写 操作 的 函数 中 有 一 个 cache_slot 的 参数 ， 它 的 作用 涉及 PHP 的 
一 个 缓存 机 制 : 运行 时 缓存 ， 后 面 会 单独 介绍 。 


3.4.2.4 对 象 的 复制 


PHP 中 普通 变量 的 复制 可 以 通过 直接 赋值 完成 ， 比 如 : 


$a = array(); 
$b = $a; 


ee 
象 ， 修 改 时 也 不 会 发 生硬 拷贝 。 e | 子 ， 我 们 把 $a 赋值 给 $b ， 然 后 
如 果 我 们 修改 $b 的 内 容 ， 那 么 这 时 候 会 进行 value 分 离 ， $a Ke > 
但 是 如 果 是 把 一 个 对 象 赋值 给 了 ee 
随 之 改变 。 


class mv Class 


public $arr = array( ) ， 


$a = new my Class: 
$b = $a; 


$b->arr[] = 1; 


var_dump($a === $b); 


输出 : bool(true) 


还 记得 我 们 在 《2.1.3.2 写 时 复制 》 一 节 讲 过 zval 有 个 类 型 扼 码 : type_flag 吗 ? 其 中 
有 个 是 否 可 复制 的 标识 : IS_TYPE_COPYABLE ，copyable 的 意思 是 当 value 发 生 

duplication 时 是 否 需要 或 能 够 copy， 而 object 的 类 型 是 不 能 复制 (不 清楚 的 可 以 翻 下 

前 面 的 章节 )， 所 以 我 们 不 能 简单 的 通过 赋值 语句 进行 对 和 象 的 复制 。 


PHP 提 供 了 另外 一 个 关键 词 来 实现 对 象 的 复制 : clone e 


$copy_of_object = clone $object; 
clone 出 的 对 象 就 与 原来 的 对 象 完 全 隔离 了 ， 各 自修 改 都 不 会 相互 影响 ， 另 外 如 
果 类 中 定义 了 _ clone() 魔术 方法 ， 那 么 在 clone 时 将 调用 此 函数 。 


clone 的 实现 比较 简单 ， 通 
过 zend_object.clone_obj (FP: zend_objects_clone_obj() ) 完 成 。 


//zend_objects.c 
ZEND_API zend object “zend objects clone obj(zval *zobjectť) 
{ 


zend_object *old_object; 
zend_object *new_object; 


old_object = Z_0BJ_P(zobject); 
// 重 新 分 配 一 个 zend_object 
new_object = zend objects_ new(old object->ce); 


// 浅 复制 properties_table、properties 
// 如 果 定义 了 clone( ) 则 调用 此 方法 
zend_objects clone members(new object, old object ) ， 


return new_object; 


3.4.2.5 对 象 比 较 


当 使 用 比较 运算 符 (==) 比较 两 个 对 象 变 量 时 ， 比 较 的 原则 是 : 如 果 两 个 对 象 的 属 
性 和 属性 值 都 相等 ， 而 且 两 个 对 象 是 同一 个 类 的 实例 ， 那 么 这 两 个 对 象 变 量 相等 ; 
而 如 果 使 用 全 等 运算 符 (===) ， 这 两 个 对 象 变量 一 定 要 指向 某 个 类 的 同一 个 实例 
( 即 同一 个 对 象 ) 。 


PHP 中 对 象 间 的 "==" 比 较 通 过 有 函数 zend_std_compare_objects() 处 理 。 


static int Zeng-Stëd-Gompere-ObteGtstzvet Ole zwet 02) 


{ 


if (zobj1->ce != zobj2->ce) { 
return 1; /* different classes */ 


} 
if (!zobj1->properties Së !zobj2->properties) { 
// 乏 个 比较 properties_tab1le 


}else{ 
// 比 较 properties 
return zend_compare_symbol_tables(zobj1->properties, zob 
j2->properties); 


} 


"===" 的 比较 通过 函数 zend_is_identical() 处 理 ， 比 较 简 单 ， 这 里 不 再 展开 。 


3.4.2.6 对 和 象 的 销毁 


object 与 string、array 等 类 型 不 同 ， 它 是 个 复合 类 型 ， 所 以 它 的 销毁 过 程 更 加 复杂 ， 
赋值 、 函 数 调用 结束 或 主动 unset 等 操作 中 如 果 发 现 object 引 用 计数 为 0 则 将 触发 销 
毁 动 作 。 


// 情 况 1 
$obj1 = new my _function( ) ; 


$obj1 = 123; // 此 时 将 断 开 对 zend_object 的 引用 ， 如 果 refcount=0 则 销 奴 
// 情 况 2 
Ellen ETONEXXXX (H 


$obj1 = new my_function(); 


return null; // 清 理 局 部 变量 时 如 果 发 现 $obj1 引 用 为 9 则 销毁 


} 

// 情 况 3 

= new my_function() 
/整个 脚本 结束 ， 清 理 全 局 变量 时 

// 情 况 4 

$obj1 = new my _function( ) ; 

unset($0bj1); 


上 面 这 几 个 都 是 比较 常见 的 会 进行 变量 销毁 的 情况 ， 销 毁 一 个 对 象 
由 zend_objects_store_del() 完成 ， 销 毁 的 过 程 主 要 是 清理 成 员 属 性 、 从 
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EGiobiects storelobiect buckets 中 删除 、 释 放 zend_object 内 存 等 等 。 


//zend_objects_API.c 
ZEND API void zend objects store del(zend_object *“object) 


{ 
// 这 人 SEA E 侠 与 的 很 挫 KOR 


if (GC_REFCOUNT(object) > 0) { 
GC_REFCOUNT(object)--; 
return; 


// 调 用 dtor_obj， 歌 认 zend_objects_destroy_ object() 
// 接 着 调用 free_obj， 默 认 zend_object_std_dtor() 
object->handlers->dtor_obj(object); 
object->handlers->free_obj(object); 


ptr = ((char*)object) - object->handlers->offset; 
efree(ptr); 


另外 ， 在 减少 refcount 时 如 果 发 现 object 的 引用 计数 大 于 0 那么 并 不 是 什么 都 不 做 

了 ， 还 记得 2.1.3.4 介 绍 的 垃圾 回收 吗 ? PHP 变 量 类 型 有 的 会 因为 循环 引用 导致 正常 
的 gc 无 法 生效 ， 这 种 类 型 的 变量 就 有 可 能 成 为 垃圾 ， 所 以 会 对 这 些 类 型 

的 zval.u1.type_flag 打上 IS_TYPE_COLLECTABLE 标签 ， 然 后 在 减少 引用 时 即 
使 refcount 大 于 0 也 会 启动 垃圾 检查 ， 目 前 只 有 object、array 两 种 类 型 会 使 用 这 种 机 
制 。 


3.4.3 继承 


继承 是 面向 对 象 编程 技术 的 一 块 基石 ， 它 允许 创建 分 等 级 层次 的 类 ， 它 允许 子 类 继 
承 父 类 所 有 公有 或 受 保护 的 特征 和 行为 ， 使 得 子 类 对 象 具有 父 类 的 实例 域 和 方法 ， 
或 子 类 从 父 类 继承 方法 ， 使 得 子 类 具有 父 类 相同 的 行为 。 


继承 对 于 功能 的 设计 和 抽象 是 非常 有 用 的 ， 而 且 对 于 类 似 的 对 象 增加 新 功能 就 无 须 
重新 再 写 这 些 公 用 的 功能 。 


PHP 中 通过 extends 关键 词 继承 一 个 父 类 ， 一 个 类 只 允许 继承 一 个 父 类 ， 但 是 可 
以 多 级 继承 。 


class 父 类 { 


} 


class 子 类 extends 父 类 { 


} 


前 面 的 介绍 我 们 已 经 知道 ， 类 中 保存 着 成 员 属 性 、 方 法 、 常 量 等 ， 父 类 与 子 类 之 间 
通过 zend_class_entry. parent 建立 关联 ， 如 下 图 所 示 。 
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问题 来 了 : 
间 的 这 些 信 
的 编译 过 程 


每 个 类 都 有 自己 独立 的 常量 、 成 员 属性 、 ， 那么 继承 类 父子 之 
息 是 如 何 进行 关联 的 呢 ? 接 下 来 我 们 将 带 着 这 个 疑问 再 重新 分 析 一 下 类 
程 中 是 如 何 处 理 继承 关系 的 。 


3.4.1.5 一 节 详 细 介 绍 了 类 的 编译 过 程 ， 这 里 再 简单 回顾 下 : 首先 为 类 分 配 一 个 
zendclassentry 结 构 ， 如 果 没 有 继承 类 则 生成 一 条 类 声明 的 
opcode(ZENDDECLARECLASS)， 有 继承 类 则 生成 两 条 
opcode(ZENDFETCHCLASS、ZENDDECLAREINHERITED_CLASS)， 然 后 再 继 
续 编 译 常 量 、 成 员 属 性 、 成 员 方 法 注册 到 zend_class_entry 中 ， 最 后 编译 完成 后 调 
用 zend_do_early_binding() 进行 父子 类 关联 以 及 注册 到 EG(class_table) 符 号 
T 


如 果 父 类 在 子 类 之 前 定义 的 ， 那 么 父子 类 之 间 的 关联 就 是 

在 zend_do_early_binding() 中 完成 的 ， 这 里 不 考虑 子 类 在 父 类 前 定义 的 情况 ， 
实际 两 者 没有 本 质 差 别 ， 区 别 在 于 在 哪 一 个 阶段 执行 。 有 继承 类 的 情况 

在 zend_do_early_binding() 中 首先 是 查找 父 类 ， 然 后 调 

用 do bind_inherited_class() 处 理 ， 最 后 

将 ZEND_FETCH_CLASS ` ZEND_DECLARE_INHERITED_CLASS 两 条 opcode 删 除 ， 
这 些 过 程 前 面 已 经 介绍 过 了 ， 下 面 我 们 重点 看 

下 do_bind_inherited_class() 的 处 理 过 程 。 


ZEND_API zend class entry "do bing inherited class ( 

const zend_ op_array *op_array，// 这 个 是 定义 类 的 地 方 的 

const zend_ op *opline，// 类 声明 的 opcode : ZEND_DECLARE_INHERITE 
D CLAGS 

HashTable "class table //C6(class table 

zend Class entrv zparent Ce, // 父 类 

zend_bool compile time) // 是 否 编译 时 


Zend Class entrv *ce; 
zval "opt, *op2; 


if (compile_time) { 
op1 = CT_CONSTANT_EX(op_array, opline->opi1.constant); 
op2 = CT_CONSTANT_EX(op_array, opline->op2.constant); 
}else{ 


} 


// 父 子 类 关联 
zend_do_inheritance(ce, parent ce ) 


// 注 册 到 CG(class_table) 


上 面 这 个 函数 的 处 理 与 注册 非 继承 类 的 do_bind_class() 几乎 完全 相同 ， 只 是 多 
了 一 个 zend_do_inheritance() 一 步 ， 此 函数 输入 很 直观 ， 只 一 个 类 及 父 类 。 


//zend inheritance.c #line:758 
ZEND APT void zend do inheritance(zend class entry “ce, Zend cla 
ss_entry *parent ce) 


{ 
zend_property_info *property_info; 
zend_function *func; 
zend_string *key; 
zval *zv; 
//interface、trait、final 类 检查 
ce->parent = parent_ce; 


zend_do_inherit interfaces(ce, parent_ ce); 


// 下 面 就 是 继承 属性 、 常 量 、 方 法 


下 面 的 操作 我 们 根据 一 个 示例 逐个 来 看 。 


// 示 例 

class A { 
const A1 E 
public $a1 = array(1); 
private $a2 = 120; 


public function get() < 
echo "A::get()"; 


} 
class B extends A { 
const B1 = 2; 


public $b1 = "ddd"; 


public function oer) / 
echo "B::get()"; 


3.4.3.1 继承 属性 


前 面 我 们 已 经 介绍 过 : 属性 按 静 态 、 非 静态 分 别 保存 在 两 个 数组 中 ， 各 属性 按照 定 
义 的 先后 顺序 编号 (offset)， 同 时 按照 这 个 编号 顺序 存储 排列 ， 而 这 些 编号 信息 通 
过 zend_property_info 结构 保存 ， 全 部 静态 、 非 静态 属性 

的 zend_property_info 保存 在 一 个 以 属性 名 为 key 的 HashTable 中 ， 所 以 检索 属 
性 时 首先 根据 属性 名 找到 此 属性 的 zend_property_info ， 然 后 拿 到 其 属性 值 的 
offset， 再 根据 静态 、 非 静态 分 别 

到 default_static members count ` default_properties_table 数组 中 取 
出 属性 值 。 


当 类 存在 继承 关系 时 ， 操 作 方 式 是 : 将 属性 从 父 类 复制 到 子 类 。 子 类 会 将 父 类 的 公 
共 、 受 保护 的 属性 值 数组 全 部 合并 到 子 类 中 ， 然 后 将 全 部 属性 
的 zend_property_info 哈 希 表 也 合并 到 子 类 中 。 


合并 的 步 又 : 


(1) 合 并 非 静 态 属 性 default_properties_table: 首先 申请 一 个 父 类 + 子 类 非 静 态 属 性 
大 小 的 数组 ， 然 后 先 将 父 类 非 静 态 属性 复制 到 新 数组 ， 然 后 再 将 子 类 的 非 静 态 数组 
接着 父 类 属性 的 位 置 复制 过 去 ， 子 类 的 default _properties_table 指 向 合并 后 的 新 数 
组 ，default_properties_count 更 新 为 新 数组 的 大 小 ， 最 后 将 子 类 上 昌 的 数组 释放 。 


if (parent ce->default properties count) { 
zval *src, "det, "end: 


zval *table = pemalloc(sizeof(zval) * (ce->default_propertie 
s_count + parent ce->default_ properties count), ...); 


ce->default_properties table = table; 


EES rovertes table 
| | 


don 
}while(dst != end); 
// 更 新 default_properties_count 为 合并 后 的 大 小 


Ce- default pDroperties count += parent_ce->default_propertie 
s_count; 


} 


示例 合并 后 的 情况 如 下 图 。 


3.4.3 继承 







A: zend_class_entry 


default_properties_table 
default_properties_count: 
2 







B: zend_class_entry 


default_properties_table K 
default_properties_count: 
1=>3 





父 类 非 静态 属性 子 类 非 静态 居 性 


(2) 合 并 静态 属性 default_static_members_table: 与 非 静态 属性 相同 ， 新 申请 一 个 
父 类 + 子 类 静态 属性 大 小 的 数组 ， 依 次 将 父 类 、 子 类 静态 属性 复制 到 新 数组 ， 然 后 
更 新 子 类 default_static_members_table 指 向 新 数组 。 


(3) 更 新 子 类 属性 offset: 因为 合并 后 原子 类 属性 整体 向 后 移 了 ， 所 以 子 类 属性 的 编 
号 offset 需 要 加 上 前 面 父 类 属性 的 总 大 小 。 


ZEND_HASH_FOREACH_PTR(&ce->properties_info, property_info) { 
if (property_info->ce == ce) { 
if (property_info->flags & ZEND_ACC_STATIC) { 
// 静 态 属 性 offset 为 数组 下 标 ， 直 接 加 上 父 类 default _ static me 
mbers_count 即 可 
property_info->offset += parent ce->default_ static m 
embers_ Count: 
+ else / 
// 非 静态 属性 offset 为 内 存 偏 移 值 ， 按 Zzval 大 小 递增 
property_info->offset += parent ce->default properti 
es COUnt " Sizepttzvalu: 
} 


} 
} ZEND_HASH_FOREACH_END( ) ; 
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(4) 合 并 properties_info 哈 希 表 : 这 也 是 非常 关键 的 一 步 ， 上 面 只 是 将 父 类 的 属性 值 
合并 到 了 子 类 ， 但 是 索引 属性 用 的 是 properties_info 哈 希 表 ， 所 以 需要 将 父 类 的 属 
性 索引 表 与 子 类 的 索引 表 合 并 。 在 合并 的 过 程 中 就 牵扯 到 父子 类 属性 的 继承 、 履 盖 
问题 了 ， 各 种 情况 具体 处 理 如 下 : 


e 父 类 属性 不 与 子 类 冲突 且 父 类 属性 是 私有 : 即 父 类 属性 为 private， 且 子 类 中 没 
有 重 名 的 ， 则 将 此 属性 插入 子 类 properties_info， 但 是 更 新 其 flag 为 
ZEND_ACC_SHADOW， 这 种 属性 将 不 能 被 子 类 使 用 ; 

e 父 类 属性 不 与 子 类 冲突 H 父 类 属性 是 公有 : 这 种 比较 简单 ， 子 类 可 以 继承 使 
用 ， 直 接 插入 子 类 properties_ info ; 

o 父 类 属性 与 子 类 冲突 且 父 类 属性 为 私有 : 不 继承 父 类 的 ， 以 子 类 原 属 性 为 准 ， 
但 是 打上 ZEND_ACC_CHANGED 的 flag， 这 种 属性 父子 类 隔离 ， 互 不 干扰 ; 

e 父 类 属性 与 子 类 冲突 且 父 类 属性 是 公有 或 受 保护 的 : 

o 父子 类 属性 一 个 是 静态 一 个 是 非 静 态 : 编译 错误 ; 

o 父子 类 属性 都 是 非 静 态 : 用 父 类 的 offset， 但 是 值 用 子 类 的 ， 父 子 类 共享 ; 

o 父子 类 属性 都 是 静态 : 不 继承 父 类 属性 ， 以 子 类 原 属性 为 准 ， 父 子 类 隔 
离 ， 互 不 干扰 ; 


这 个 地 方 相对 比较 复杂 ， 具 体 的 合并 策略 在 do_inherit_property() 中 ， 这 里 不 
再 罗列 代码 。 


所 以 ， 继 承 类 实际 上 是 把 父 类 的 属性 、 常 量 、 方 法 合并 到 了 子 关 里 面 ， 上 一 节 介绍 
实例 化 时 会 将 普通 成 员 属性 值 复制 到 对 象 中 去 ， 这 样 在 实例 化 时 子 类 就 与 普通 的 类 
的 操作 没有 任何 差别 了 。 


3.4.3.2 继承 常量 


常量 的 合并 策略 比较 简单 ， 如 果 父 类 与 子 类 冲突 时 用 子 类 的 ， 不 冲突 时 则 将 父 类 的 


static void do 1nberit class Constantizend string "name, zval "zz 
V, Zend class entry “ce, zeng class entry “parent ce) 
{ 

// 父 类 定义 的 常量 在 子 类 中 没有 定义 

if (!zend_hash_exists(&ce->constants_table, name)) { 


zend_hash_append(&ce->constants_table, name, zv); 





3.4.3.3 继承 方法 


与 属性 一 样 ， 子 类 可 以 继承 父 类 的 公有 、 受 保护 的 方法 ， 方 法 的 继承 比较 复杂 ， 
为 会 有 访问 控制 、 抽 象 类 、 接 口 、Trait 等 多 种 限制 条 件 。 实 现 上 与 前 面 几 种 相同 ， 
即 父 类 的 function_table 合 并 到 子 类 的 function_ table 中 。 


首先 是 将 子 类 function_table 扩 大 ， 以 容纳 父子 类 全 部 方法 ， 然 后 遍历 父 类 
function_table， 和 逐个 判断 是 否 可 被 子 类 继承 ， 如 果 可 被 继承 则 插入 到 子 类 
function_ table 中 。 


if (zend_hash_num_elements(&parent_ce->function_table)) { 
// 扩 展 子 类 的 function_table 哈 希 表 大 小 
zend_hash _ extend(&ce->function_ table, 
zend_hash num elements(&ce->function table) + 
zend_hash_num elements(&parent ce->function_ table), 
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// 人 遍历 父 类 function_table， 检 查 是 否 可 被 子 类 继承 
ZEND_HASH_FOREACH_STR_KEY_PTR(&parent_ce->function_table, ke 


y, func) { 
zend_function *new_func = do_inherit_method(key, func, c 





e); 
if (new_func) { 
zend_hash_append_ptr (&ce->function_table, key, new_ 
func); 
} 
} ZEND_HASH_FOREACH_END( ); 
} 


ll 


在 合并 的 过 程 中 需要 对 父 类 的 方法 进行 一 系列 检查 ， 最 简单 的 情况 就 是 父 类 中 定义 
的 方法 在 子 类 中 不 存在 ， 这 种 情况 比较 简单 ， 直 接 将 父 类 的 zend_function 复 制 一 份 
给 予 类 。 


static zend _ function “do inherit method(zend string “key, zeng f 
unction *parent, zend_class_entry *ce) 


{ 


zval *child = zend_hash_find(&ce->function_table, key); 


if(child){ 
// 方 法 与 子 类 冲突 


// 父 子 类 方法 不 冲突 ， 直 接 复制 
return zend_duplicate_function(parent, ce); 


当然 这 里 不 完全 是 复制 : 如 果 继 承 的 父 类 是 内 部 类 则 会 硬 拷贝 一 份 zend_function 结 
构 (此 结构 的 指针 成 员 不 复制 ) ; 如 果 父 类 是 用 户 自 定义 的 类 ， 且 继承 的 方法 没有 静 
态 变量 则 不 会 硬 拷 贝 ， 而 是 增加 zend function 的 引用 计数 
(zend_op_array.refcount) ° 


//func 是 父 类 成 员 方法 ，Ce 是 子 类 
static zend function ‘zend duplicate function zend function "run 
c, zend class entry "ce 


{ 


zend_function *new_function; 


if (UNEXPECTED(func->type == ZEND_INTERNAL_FUNCTION)) { 
// 内 部 函数 
// 如 果子 类 也 是 内 部 类 则 会 调用 malloc 分 配 内 存 ( 不 会 被 回收 )， 否 则 在 Zen 
d 内 存 池 分 配 


}else{ 
if (func->op_array.refcount) { 
(*func->op_array.refcount)++; 


} 
if (EXPECTED( !func->op_array.static variables)) { 
return func; 


// 硬 拷贝 
new_function = zend arena alloc(&CG(arena), sizeof(zend_ 


op_array)); 
memcpy(new_function, func, sizeof(zend_ op_array)); 


合并 时 另外 一 个 比较 复杂 的 情况 是 父 类 与 子 类 中 的 方法 冲突 了 ， 即 子 类 重 写 了 父 类 
的 方法 ， 这 种 情况 需要 对 父子 类 以 及 要 合并 的 方法 进行 一 系列 检查 ， 这 一 步 
在 do_inheritance_check_on_method() 中 完成 ， 具 体 情况 如 下 : 


Static vordi do 1nberitance check on method zend function chid, 
zend function *parent) 


{ 
Uint32_t child_flags; 
Uint32_t parent_flags = parent->common.fn_flags; 


(1) 抽 象 子 类 的 抽象 方法 与 抽象 父 类 的 抽象 方法 冲突 : 无 法 重 写 ，Fatal 错 误 。 


abstract class B extends A { 
abstract TUpëtton: Eestttz 


} 
abstract class A 
{ 
abstract function test(); 
} 


PHP Fatal error: Can't inherit abstract function A::test() (pre 
viously declared abstract in B) 


判断 逻辑 : 


//do_inheritance_check_on_method(): 


if ((parent->common.scope->ce_flags & ZEND ACC INTERFACE) == 0 / 
/ 父 类 非 接口 

&& parent->common.fn_flags & ZEND_ACC_ABSTRACT // 父 类 方法 
EZE 

&& parent->common.scope != (child->common.prototype ? ch 
ild->common .prototype->common.scope : child->common.scope) 

&& child->common.fn_flags & (ZEND_ACC_ABSTRACT | ZEND_ACC_ 
IMPLEMENTED_ABSTRACT) // 子 类 方法 为 抽象 或 实现 了 抽象 方法 
) {í 

zend_error_noreturn(E_COMPILE_ERROR, "Can't inherit abstract 

function %s::%s() (previously declared abstract in %s)",...); 


} 
(2) 父 类 方法 为 final: Fatal 错 误 ，final 成 员 方法 不 得 被 重 写 。 dën 8: 
//do_inheritance_check_on_method(): 
if (UNEXPECTED(parent_flags & ZEND_ACC_FINAL)) { 
zend_error_noreturn(E_COMPILE_ERROR, "Cannot override final 


DEE Re 
} 


(3) 父 子 类 方法 静态 属性 不 一 致 : 父 类 方法 为 非 静 态 而 子 类 的 是 静态 (或 相反 ) Fatal 


错误 。 


class A { 
públic function test OKY 


class B extends A { 
static public function test(){} 


PHP Fatal error: Cannot make non static method A::test() static 
in class B 


判断 逻辑 : 
//do_inheritance check on method(): 
if (UNEXPECTED( (child "Lagos & ZEND ACC_STATIC) != (parent_flags 


& ZEND ACC STATIC))) { 
zend_error_noreturn(E_COMPILE_ERROR,...); 


(AWATARA ARALARA k: Fatal 错 误 。 


class A { 
public füunction tese( 


abstract class B extends A { 
abstract public function test(); 


PHP Fatal error: Cannot make non abstract method A::test() abst 
ract in class B 


判断 逻辑 : 


//do_inheritance_check_on_method(): 


if (UNEXPECTED((child_flags & ZEND_ACC_ABSTRACT) > (parent_flags 
& ZEND_ACC_ABSTRACT))) { 

zend_error_noreturn(E_COMPILE_ERROR, "Cannot make non abstra 
ctmethod e E E ag e e nn elass ER 


} 


(5) 子 类 方法 限制 父 类 方法 访问 权限 : Fatal 错 误 ， 不 允许 派生 类 限制 父 类 方法 的 访问 
权限 ， 如 父 类 方法 为 public， 而 子 类 试图 重 写 为 protected/private ° 


class A { 
public function test (Hy 


class B extends A { 
protected function test(){} 


PHP Fatal error: Access level to B::test() must be public (as i 
n class A) 


判断 逻辑 : 


//do_inheritance_check_on_method(): 


//ZEND_ACC_PPP_MASK = (ZEND_ACC_PUBLIC | ZEND_ACC_PROTECTED | ZE 
ND_ACC_PRIVATE) 
if (UNEXPECTED((child_flags & ZEND_ACC_PPP_MASK) > (parent_flags 
& ZEND_ACC_PPP_MASK))) { 

zend_error_noreturn(E_COMPILE_ERROR, "Access level to %s::%s 
Or must be e (as In Class geiäéei, li 
} else if (((child flags & ZEND_ACC_PPP_MASK) < (parent_flags & 
ZEND_ACC_PPP_MASK ) ) 

Së ((parent_flags & ZEND_ACC_PPP_MASK) & ZEND_ACC_PRIVAT 


E)) { 
child->common.fn_flags |= ZEND_ACC_CHANGED; 


(6) 剩 余 检 查 情 况 : 除了 上 面 5 中 情形 下 无 法 重 写 方法 ， 剩 下 还 有 一 步 对 函数 参数 的 检 
查 ， 这 个 过 程 我 们 整体 看 一 下 。 


//do_inheritance check on method(): 


if (UNEXPECTED(!zend_do_perform_implementation_check(child, pare 
nt))) { 


zend_error(error_level, "Declaration of %s %s be compatible 
with %s", ZSTR_VAL(child_prototype), error_verb, ZSTR_VAL(method 


_prototype)); 
zend_string_free(child_prototype); 
zend_string_free(method_prototype); 


实际 上 zend_do_perform implementation_check() 这 个 有 函数 是 用 来 检查 一 个 方 
法 是 否 实现 了 某 抽 象 方 法 的 ， 继 承 的 时 候 遵 循 的 也 是 这 个 规则 ， 所 以 这 里 可 以 将 父 
类 方法 理解 为 抽象 方法 ， 只 有 子 类 方法 实现 了 该 "抽象 方法 "才能 重 写 父 类 方法 。 


static zend_bool zend_do_perform_implementation_check(const zend 
function ‘fe, Const zend function proto) 


{ 


// 如 果 检 查 的 方法 是 construct 且 父 类 方法 不 是 interface 和 abstract 则 子 
类 construct %3% ží 
if ((fe->common.fn_flags & ZEND_ACC_CTOR) 
&& ((proto->common.scope->ce_flags & ZEND_ACC_INTERFACE) 


&& (proto->common.fn_flags & ZEND_ACC_ABSTRACT) == 


return 1; 


// 如 果 父 类 方法 为 私有 方法 则 子 类 方法 可 以 覆盖 
if (proto->common.fn_ flags & ZEND_ACC_PRIVATE) { 
return IL: 


EE Ee e NEE EE ee AE EE 
ZZ ` 
// X% public function test($a, $b = 3){} 
// "SZ public function test($a, $b){} 
if (proto->common.required_num_args < fe->common.required_nu 
m_args 
|| proto->common.num_args > fe->common.num args) { 
Rs EU 


// 可 变 函 数 ， 暂 未 理解 这 里 的 可 变 函 数 指 哪 类 ， 忽 略 


// 如 果 有 定义 的 参数 检查 参数 类 型 是 否 匹 配 ， 如 果 显 式 声 明了 参数 类 型 则 父子 类 方 
法 必须 匹配 
Tor (i = 0; i < num args; i++) { 
zend_arg_info *fe _ arg_info = &fe->common.arg_info[i]; 
if (!zend_do_ perform type_hint_ check(fe, fe arg_info, pr 
oto, proto arg info)) { 
ekunmaey 





// 是 否 引 用 也 必须 一 臻 
if (fe arg_info->pass_ by_reference != proto arg_info->pa 
Ss by_reference) { 


returno, 


// 如 果 父 类 方法 声明 了 返回 值 类 型 则 子 类 方法 必须 声明 且 类 型 一 致 ， 相 反 如 果子 类 
声明 了 而 父 类 无 要 求 则 可 以 


if (proto->common .fn_ flags & ZEND_ACC_HAS_RETURN_TYPE) { 


if (!(fe->common.fn_ flags & ZEND_ACC_HAS_RETURN_TYPE) ) { 
returnto, 





if (!zend_do_perform_type_hint_check(fe, 
info - 1, proto, proto->common.arg_info - 1)) { 
sn 


fe->common .arg 


这 个 判断 过 程 还 是 比较 复杂 的 ， 有 些 地 方 很 难 理解 为 什么 设计 ， 想 了 解 完 整 过 程 的 
可 以 自行 翻 下 代码 。 


3.4.4 动态 属性 


前 面 介绍 的 成 员 属 性 都 是 在 类 中 明确 的 定义 过 的 ， 这 些 属性 在 实例 化 时 会 被 拷贝 到 
对 象 空 间 中 去 ，PHP 中 除了 显示 的 在 类 中 定义 成 员 属性 外 ， 还 可 以 动态 的 创建 非 静 
态 成 员 属 性 ， 这 种 属性 不 需要 在 类 中 明确 定义 ， 可 以 直接 通过 : $obj - 
>property_name=xxx ` $this->property_name = xxx 为 对 象 设置 一 个 属性 ， 
这 种 属性 称 之 为 动态 属性 ， 举 个 例子 : 


class my_class { 
public $id = 123; 


public function test($name, $value){ 
$this->$name = $value; 


$obj = new my_class; 
$obj->test("prop_1", array(1,2,3)); 
// 或 者 直接 : 


//$0bj->prop_1 = array(1,2,3); 


print_r($obj ) ， 


在 test() 方法 中 直接 操作 了 没有 定义 的 成 员 属 性 ， 上 面 的 例子 将 输出 : 


mv Class Object 


( 
[id] => 123 
[prop_1] => Array 
( 
[0] => 1 
m e 
[2] => 3 
) 


前 面 类 、 对 象 两 节 曾 介绍 ， 非 静态 成 员 属 性 值 在 实例 化 时 保存 到 了 对 象 中 ， 属 性 的 
操作 按照 编 Eer 序 编 好 的 序号 操作 ， 各 对 象 对 其 非 静 态 成 员 属性 的 操作 互 不 干 
扰 ， 那 么 动态 属性 是 在 运行 时 创建 的 ， 它 是 如 何 存储 的 呢 ? 


与 普通 非 静 态 属性 不 同 ， 动 态 创建 的 属性 保存 在 zend_object->properties 哈 希 
表 中 ， 查 找 的 时 候 首先 按照 普通 属性 

在 zend_class_entry.properties_info 找 ， 没 有 找到 再 去 zend_object- 
>properties 继续 查找 。 动 态 属性 的 创建 过 程 ( 即 : 修改 属性 的 操作 ) : 


//zend_object->handlers->write_property: 
ZEND_API void zend_std_write_property(zval *object, zval *member 
, zyal value von Sicache T sIot) 


{ 
zobj = Z_0BJ_P(object); 
// 先 在 zend_class_entry,.properties_info 查 找 此 属性 
property_offset = zend_get_property_offset(zobj->ce, Z_STR_P 
(member), (zobj->ce-> Set != NULL), Cache slot); 


if (EXPECTED(property_offset != ZEND WRONG PROPERTY_OFFSET)) 


if (EXPECTED(property_offset != ZEND DYNAMIC PROPERTY_OF 
FSET)) { 
// 普 通 属性 ， 直 接 根据 根据 属性 ofsset 取 出 属性 值 
} else if (EXPECTED(zobj->properties != NULL)) { // 有 动态 


// 从 动态 属性 中 查找 
if ((variable_ptr = zend_hash_find(zobj->properties, 
Z_STR_P(member))) != NULL) { 
found: 
zend_assign_to_variable(variable_ptr, value, IS_ 
cv); 
goto exit; 


if (zobj->ce-> set) { 


// 定 义 了 _set() 魔 法 函数 
}else if (EXPECTED(property_offset != ZEND_WRONG_PROPERTY_OF 
FSET ) ){ 
if (EXPECTED(property_offset != ZEND DYNAMIC PROPERTY_OF 
FSET)) { 


} else { 
// 首 次 创建 动态 属性 将 在 这 里 完成 
if (!zobj->properties) { 
rebuild_object_properties(zobj); 


} 

// 将 动态 属性 插入 properties 

zend_hash_add_new(zobj->properties, Z_STR_P(member), 
value); 


} 


上 面 就 是 成 员 属性 的 修改 过 程 ， 普 通 属性 根据 其 offset 再 从 对 象 中 取出 属性 值 进 行 
修改 ， 而 首次 创建 动态 属性 将 通过 rebuild_object_properties() 初始 

化 zend_object->properties 哈 希 表 ， 后 面 再 创建 动态 属性 直接 插入 此 哈 希 

表 ， rebuild object_properties() 过 程 并 不 仅仅 是 创建 一 个 HashTable， 还 会 
将 普通 成 员 属性 值 插入 到 这 个 数组 中 ， 与 动态 属性 不 同 ， 这 里 的 插入 并 不 是 增加 原 
zend value 的 refcount， 而 是 创建 了 一 个 IS_INDIRECT 类 型 的 zval， 指 向 原 属 性 值 
Zval， 具 体 结构 如 下 图 。 







zend_object 


Sidi S - 
HashTable *properties 
“prop_1” val.value.zv properties_table[1] 
(IS_ARRAY) 
val.value.arr 


zval 
123(IS_LONG) 











3.4.4 动态 属性 


Note: 这 里 不 清楚 将 原 有 属性 也 插入 properties 的 用 意 ， 已 知 用 到 的 一 个 地 方 是 
在 GC 垃圾 回收 获取 对 象 所 有 属性 时 (zend_std_get_gc())， Be a 
Ree 给 GC 遍 历 ， 假 如 不 把 普通 的 显 式 定义 的 属性 " 找 贝 "进来 则 需 

要 返回 、 遍 历 两 个 数组 。 


另外 一 个 地 方 需要 注意 ， 把 原 属性 "转移 "到 properties 并 不 仅仅 是 创建 动态 属性 
时 触发 的 ， 调 用 对 象 的 get_properties( 即 ` Zzend_std_get_properties()) 也 会 这 
么 处 理 ， bel nay $arr = 
EE ， 通过 foreach 遍 历 一 个 对 象 时 也 会 调用 get_properties 获 取 属 性 
数组 进行 遍历 。 


成 员 属 性 的 读 取 通 过 zend_object->handlers->read_property (默认 
zend std _read_property()) 函 数 完成 ， 动 态 属 性 的 查找 过 程 实际 
与 write_property 中 相同 : 
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zval Zend etd read Dropertvizval object zvali member nt Cvp 
e, Void “cache slot, zval “rv,) 


{ 
zobj = Z_0BJ_P(object); 
// 首 先 查 找 zend_class_entry.properties_info， 普 通 属性 可 以 在 这 里 找到 


property_offset = zend_get_property_offset(zobj->ce, Z_STR_P 
(member), (type == BP_VAR_IS) || (zobj->ce-> get != NULL), cach 
e_slot); 


if (EXPECTED(property_offset != ZEND WRONG PROPERTY_OFFSET)) 


if (EXPECTED(property_offset != ZEND_DYNAMIC_PROPERTY_OF 
FSET)) { 
// 普 通 属性 
retval = 0BJ_PROP(zobj，property_offset ) ， 
} else if (EXPECTED(zobj->properties != NULL)) { 
// 动 态 属性 从 zend_object->properties 中 查找 
retval = zend_hash_find(zobj->properties, Z_STR_P(me 
mber ) ) ， 


if (EXPECTED(retval)) goto exit; 





3.4.5 魔术 方法 


PHP 在 类 的 成 员 方法 中 预 留 了 一 些 特殊 的 方法 ， 它 们 会 在 一 些 特殊 的 时 机 被 调用 ( 比 
如 创建 对 象 之 初 、 访 问 成 员 属 性 时 ...)， 这 类 方法 称 为 : 魔术 方法 ， 包 括 : 
construct() ` destruct() ` call() 、 callStatic() ` get() ` set() ` isset() ` unset() ` 
sleep() ` wakeup() ` toString() ` invoke() ` set_state() ` clone() 和 
debuglnfo()， 关 于 这 些 方法 的 用 法 这 里 不 作 说 明 ， 不 清楚 的 可 以 翻 下 官方 文档 。 


魔术 方法 实际 是 PHP 提 供 的 一 些 特殊 操作 时 的 钓 子 函数 ， 与 普通 成 员 方 法 无 异 ， 它 
们 只 是 与 一 些 操 作 的 口头 约定 ， 并 没有 什么 字段 标识 它们 ， 比 如 我 们 定义 了 一 个 函 
数 : my_function()， 我 们 希望 在 这 个 函数 处 理 对 象 时 首先 调用 其 成 员 方 法 

mv magic) > 那么 my_magic() 也 可 以 认为 是 一 个 魔术 方法 。 


魔术 方法 与 普通 成 员 方法 一 样 保存 在 zend_class_entry.function table 中 ， 
另外 针对 一 些 内 核 常用 到 的 成 员 方法 在 zend_class_entry 中 还 有 一 些 单独 的 指针 指 
向 具体 的 成 员 方 法 : 


struct _zend_class_entry { 


union _zend_function *constructor; 
union _zend_function *destructor; 
union _zend_function *clone; 

union _zend_function P get; 

union _zend_function * set; 

union _zend_function * unset; 
union _zend_function * isset; 
union _zend_function * call; 
union _zend_function * callstatic; 
union _zend_function * tostring; 
union _zend_function *_ debugInfo; 


在 编译 成 员 方法 时 如 果 发 现 与 这 些 魔术 方法 名 称 一 EN 了 插 
入 zend_class_entry.function_table 哈 希 表 以 外 ， hee 
中 对 应 的 指针 。 


3.4.5 魔术 方法 


zend _ class_entry 








Bucket 


value->func value->func 


HashTable arpata 
function_tabte 


union _zend_function 


+ t t e g 
EE union zend function union _zend_function 


est et 
*destructor 


union _zend_function 
TI get 


具体 在 编译 成 员 方法 时 设置 : zend_begin_method decl() 。 
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void zend_begin method declizend op arrav "op arrav, Zend String 
"name, zend bool has_body) 


í 


// 插 入 类 的 function_tab1e 中 
if (zend_hash_add_ptr(&ce->function_table, lcname, op_array) 
== NULL) { 
zend_error_noreturn(..); 


if (!in_trait Së zend_string_equals_ci(lcname, ce->name)) { 
if (!ce->constructor) { 
ce->constructor = (zend_function *) op_array; 
} 
} else if (zend_string_equals_literal(lcname, ZEND_CONSTRUCT 
OR_FUNC_NAME)) { 
ce->constructor = (zend_function *) op_array; 
} else if (zend_string_equals_literal(lcname, ZEND_DESTRUCTO 
R_FUNC_NAME)) { 
ce->destructor = (zend_function *) op_array; 
} else if (zend_string_equals_literal(lcname, ZEND_CLONE_FUN 
C_NAME)) { 
ce->clone = (zend_function *) op_array; 
} else if (zend_string_equals_literal(lcname, ZEND_CALL_FUNC 
_NAME)) { 
Ce-z call = (zend_function *) op_array; 
} else if (zend_string_equals_literal(lcname, ZEND_CALLSTATI 
C_FUNC_NAME)) { 
ce-> callstatic = (zend_function *) op_array; 
} else if (...){ 


除了 这 几 个 其 它 魔术 方法 都 没有 单独 的 指针 指向 ， 比 如 : sleep()、wakeup()， 这 两 
个 主要 是 serialize()、unserialize() 序 列 化 、 反 序列 化 时 调用 的 ， 它 们 是 在 这 俩 函数 
中 写 死 的 ， 我 们 简单 看 下 serialize() 的 实现 ， 这 个 函数 是 通过 扩展 提供 的 : 


Maer esgt/etandarg/var-G 

PHP_FUNCTION(serialize) 

{ 
zval *struc; 
php_serialize_data_t var_hash; 
smart_str buf = {0}; 


if (zend_parse_parameters(ZEND_NUM_ARGS(), "z", &struc) == 
AILURE) { 
return; 


php_var_serialize(&buf, struc, &var_hash); 


最 终 由 php_var_serialize_intern() 处 理 ， 这 个 函数 会 根据 不 同 的 类 型 选择 不 
同 的 处 理 方 式 : 


static void php_var_serialize_intern(smart_str *buf, zval *struc 
; php_serialize_data_t var_hash ) 


{ 
switch (Z_TYPE_P(struc)) { 
case IS_FALSE: 
case IS TRUE: 
case IG NULL: 
case IG LONG: 
} 
} 


其 中 类 型 是 对 象 时 将 先 检 查 zend_class function.function _ table 中 是 否定 义 
了 _sleep() ， 如 果 有 的 话 则 调用 : 


//case IS_OBJEST: 


if (ce != PHP_IC_ENTRY && zend_hash_str_exists(&ce->function_tab 
le, "sleep", sizeof("_sleep")-1)) { 

ZVAL_STRINGL(&fname, "__sleep", sizeof("__sleep") - 1); 

// 调 用 用 户 自 定 义 的 ”sleep() 方 法 

res = call user_function ex(CG(function table), struc, &fnam 
e, &retval, ©, ©, 1, NULL); 


if (res == SUCCESS) { 
if (Z_TYPE(retval) != IS_UNDEF) { 
if (HASH_OF(&retval)) { 
php_var_serialize_class(buf, struc, &retval, var 


_hash); 
} else { 
smart_str_appendl(buf,"N;", 2); 
} 
zval_ptr_dtor(&retval); 
} 
return; 
} 
} 


// 后 面 会 走 到 IS_ARRAY 分 支 继 续 序 列 化 处 理 


其 它 魔术 方法 与 “sleep() 类 似 ， 都 是 在 一 些 特 殊 操 作 中 国定 调用 的 。 


3.4.6 类 的 自动 加 载 


在 实际 使 用 中 ， 通 常会 把 一 个 类 定义 在 一 个 文件 中 ， 然 后 使 用 时 include 加 载 进 来 ， 
这 样 就 带 来 一 个 问题 : 在 每 个 文件 的 头 部 都 需要 包含 一 个 长 长 的 include 列 表 ， 而 且 
当 文 件 名 称 修 改 时 也 需要 把 每 个 引用 的 地 方 都 改 一 遍 ， 另 外 前 面 我们 也 介绍 过 ， 原 
则 上 父 类 需要 在 子 类 定义 之 前 定义 ， 当 存在 大 量 类 时 很 难得 到 保证 ， 因 此 PHP 提 供 
了 一 种 类 的 自动 加 载 机 制 ， 当 使 用 未 被 定义 的 类 时 自动 调用 类 加 载 器 将 类 加 载 进 
来 ， 方 便 类 的 同一 管理 。 


在 内 核实 现 上 类 的 自动 加 载 实际 就 是 定义 了 一 个 钧 子 函 数 ， 实 例 化 类 时 如 果 在 
EG(class_table) 中 没有 找到 对 应 的 类 则 会 调用 这 个 钧 子 辑 数 ， 调 用 完 以 后 再 重新 查 
找 一 次 。 这 个 钓 子 函数 保存 在 EG(autoload func) 中 。 


PHP 中 提供 了 两 种 方式 实现 自动 加 
载 : autoload() ` spl autoload register() ° 


(1)__autoload(): 


这 种 方式 比较 简单 ， 用 户 自 定义 一 个 ”autoload() 函数 即 可 ， 参 数 是 类 名 ， 当 
实例 化 一 个 类 是 如 果 没 有 找到 这 个 类 则 会 查找 用 户 是 否定 义 了 ”autoload() dë 
数 ， 如 果 定 义 了 则 调用 此 有 函数 ， 比 如 : 


Mi my class, php 

<?php 

Class mv class / 
public $id = 123; 


MMSR | Tole 

<?php 

function _ autoload($class_name){ 
Ado somerhing, . 


include $class_name . '.php'; 


$obj = new my_class(); 
var_dump ($0b]j ); 


(2)spl_autoload_register(): 


相 比 _ autoload() 只 能 定义 一 个 加 载 器 ， spl autoload_register() 提供 了 

更 加 灵活 的 注册 方式 ， 可 以 支持 任意 数量 的 加 载 器 ， 比 如 第 三 方 库 加 载 规则 不 可 能 
保持 一 致 ， 这 样 就 可 以 通过 此 函数 注册 自己 的 加 载 器 了 ， 在 实现 上 spl 创 建 了 一 个 队 
列 来 保存 用 户 注 册 的 加 载 器 ， 然 后 定义 了 一 个 spl_autoload 函 数 到 

EG(autoload func)， 当 找 不 到 类 时 内 核 回调 spl autoload， 这 个 函数 再 依次 调用 用 
户 注 册 的 加 载 器 ， 没 调用 一 个 重新 检查 下 查找 的 类 是 否 在 EG(class _table) 中 已 经 注 
册 ， 仍 找 不 到 的 话 继续 调用 下 一 个 加 载 器 ， 直 到 类 成 功 注册 为 止 。 


bool spl autoload register ([ callable $autoload function [, bool 
$throw = true [, bool $prepend = false ]]] ) 


E | 
参数 $autoload_function 为 加 载 器 ， 可 以 是 函数 名 ， 第 2 个 参数 $throw 用 于 
设置 autoload_function 无 法 成 功 注 册 时 ，spl_autoload register() 是 否 抛 出 异常 ， 


最 后 一 个 参数 如 果 为 true 时 spl_autoload register() 会 添加 函数 到 队列 之 首 ， 而 不 是 
队列 尾部 。 


function autoload one($class name){ 
echo "autoload one->", $class name, "\n"; 


function autoload two($class name){ 
echo "autoload two->", $class name, "\n"; 


spl_autoload register("autoload one"); 
spl_autoload register("autoload two"); 


$0bj = new my_class(); 
var_dump ($0b]j ); 


这 个 例子 执行 时 就 会 将 autoload_one()、autoload_two() 都 调 一 遍 ， 假 如 第 一 个 函数 
就 成 功 注册 了 my_class 类 则 不 会 再 调 后 面 的 加 载 器 。 


内 核查 找 类 通过 zend_lookup_class_ex() 完成 ， 我 们 简单 看 下 其 处 理 过 程 。 


//file: zend execute API.c 
ZEND_API zend class entry *zend Lookup class ex(zend_ string *nam 
e, const zval "key int use autoload) 


d 


// 从 EG(class_tab1le) 符 号 表 找 类 的 zend_class_entry， 如 果 找 到 说 明 类 已 
经 编译 ， 直 接 返 回 
ce = zend_hash_find ptr(EG(class_ table), lc name); 
if (ce) { 
if (!key) { 
zend_string_release(lc_name); 





} 


return ce; 


} 


// 如 果 没 有 通过 Sp1 注 册 则 看 下 是 否定 义 了 autoload() 
if (!EG(autoload_func)) { 


zend_function *func zend_hash_str_find_ptr(EG(function 





_table), "__autoload", sizeof("__autoload") - 1); 
if (func) { 
EG(autoload_func) = func; 
} else { 


return NULL; 


} 
fcall cache.function_handler = EG(autoload_ func); 


// 调 用 EG(autoload_ func) 函数 ， 然 后 再 查 一 次 EG(class_table) 
if ((zend_call_function(&fcall_info, &fcall_cache) == SUCCES 
S) && !EG(exception)) { 
ce = zend_hash_find_ptr(EG(class_table), lc_name); 





SPL 的 具体 实现 比较 简单 ， 这 里 不 再 介绍 。 


3.4.6 类 的 自动 加 载 
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3.5 运行 时 缓存 
在 本 节 开 始 之 前 我 们 先 分 析 一 个 例子 : 


class mv Class! 
public $id = 123; 


públic function test() 4 
echo $this->id; 


$obj = new my_class; 
$obj->test(); 
$obj->test(); 


这 个 例子 定义 了 一 个 类 ， 然 后 多 次 调用 同一 个 成 员 方法 ， 这 个 成 员 方法 功能 很 简 

单 : 输出 一 个 成 员 属 性 ， 根 据 前 面 对 成 员 属 性 的 介绍 可 以 知道 其 查找 过 程 为 : "首先 
根据 对 象 找 到 所 属 zend_class_entry， 然 后 再 根据 属性 名 查 

找 zend_class_entry.properties_info 哈 希 表 ， 得 

到 zend_property_info ， 最 后 根据 属性 结构 的 offset 定 位 到 属性 值 的 存储 位 

置 "， 概 括 一 下 这 个 过 程 就 是 : zend_object->zend_class_entry->properties_info-> 
属性 值 ， 那么 问题 来 了 : 每 次 执行 my_class::test() 时 难道 上 面 的 过 程 都 要 完 
ERI? 


我 们 再 仔细 看 下 这 个 过 程 ， 字 面 量 "id" 在 "$this->id" 此 条 语句 中 就 是 用 来 索引 属性 
的 ， 不 管 执 行 多 少 次 它 的 任务 始终 是 这 个 ， 那 么 有 没有 一 种 办 法 将 "id" 与 查找 到 的 
zend class_entry、zend_ property_info.offset 建 立 一 种 关联 关系 保存 下 来 ， 这 样 再 
次 执行 时 直接 根据 "id" 拿 到 前 面 关联 的 这 两 个 数据 ， 从 而 避免 多 次 重复 相同 的 工作 
呢 ? 这 就 是 本 节 将 要 介绍 的 内 容 : 运行 时 缓存 。 


在 执行 期 间 ，PHP 经 常 需要 根据 名 称 去 不 同 的 哈 希 表 中 查找 常量 、 函 数 、 类 、 成 员 
方法 、 成 员 属性 等 ， 因 此 PHP 提 供 了 一 种 缓存 机 制 用 于 缓存 根据 名 称 查 找到 的 结 
果 ， 以 便 再 次 执行 同一 opcode 时 直接 复 用 上 次 缓存 的 值 ， 无 需 重 复查 找 ， 从 而 提高 
执行 效率 。 


开始 提 到 的 那个 例子 中 会 缓存 两 个 东西 : end Class ent ` 
zend_property_info.offset， 此 缓存 可 以 认为 是 opcode 操 作 的 缓存 ， 它 只 属于 "$this- 
>id" 此 语句 的 opcode : 这 样 再 次 执行 这 条 opcode 时 就 直接 取出 上 次 缓存 的 两 个 值 。 


所 以 运行 时 缓存 机 制 是 在 同一 opcode 执 行 多 次 的 情况 下 才 会 生效 ， 特 别 注 意 这 里 的 
同一 0pcode 指 的 并 不 是 opcode 值 相同 ， 而 是 指 内 存 里 的 同一 份 数据 ， 比 如 : echo 
$a; echo $a; 这 种 就 不 莽 ， 因 为 这 是 两 条 opcode。 


那么 缓存 是 如 何 保存 和 索引 的 呢 ? 执行 opcode 时 如 何 知 道 缓存 的 位 置 ? 


实际 上 运行 时 缓存 是 基于 所 属 opcode 中 CONST 操 作 数 存储 的 ， 也 就 是 说 只 有 和 包含 
IS_CONST 类 型 的 操作 数 才 有 可 能 用 到 此 机 制 ， 其 它 类 型 都 不 会 用 到 ， 这 是 因为 只 
有 CONST 操 作 数 是 固定 不 变 的 ， 其 它 CV、VAR 等 类 型 值 都 不 是 固定 的 ， 既 然 其 值 
是 不 国定 的 那么 缓存 的 值 也 就 不 是 固定 的 ， 所 以 不 会 针对 CONST 以 外 类 型 的 
opcode 操 作 进 行 缓存 ， 还 是 以 开始 那个 例子 为 例 ， 比 如 : echo $this- 

>$var; 这 种 ， 操 作 数 类 型 是 CV， 其 正常 查找 时 的 Zend_property_info 是 随 $var 值 
而 变 的 ， 所 以 给 他 们 建立 一 种 不 可 变 的 关联 关系 ， 而 : echo $this- 

>id; 中 "id" 是 国定 写 死 的 ， 它 索引 到 zend_property_info 始 终 是 不 变 的 。 


缓存 的 存储 格式 是 一 个 数组 ， 用 于 保存 缓存 的 数据 指针 ， 而 指针 在 数组 中 的 起 始 存 
储 位 置 则 保存 在 CONST 操 作 数 对 应 的 zval.u2.cache_slot 中 (前 面 讲 过 ， 
CONST 操 作 数 对 应 值 的 zval 保 存在 zend_op_array->literals 数 组 中 )。 上 面 那个 例子 
对 应 的 缓存 结构 : 


function test(): zend_op 


op2.constant'0 (IS_CONST) 
opcbde:ZEND_FETCH_OBJ_R 





zend_op_array 


Zend op *opcodes 





e 
0 







zval *literals 








zval 


u2.cache_slot: 0 


zend_class_entry* 


e (1) 第 一 次 执行 echo $this->id; 时 首先 根据 $this 取 出 zend_class_entry ， 
然后 根据 “id" 查 找 zend_class_entry.properties_info 找 到 属性 
Zend_property_info， 取 出 此 结构 的 offset， 第 一 次 执行 后 将 zend_class_entry 
及 offset 保 存 到 了 test() 函 数 的 zend_op_array->run_time_cache 中 ， 占 用 16 字 






void 
t*run_time_cache 





节 ， 起 始 位 置 为 0， 这 个 值 记 录 在 “id" 的 zval.u2.cache _ slot 中 ; 

e (2) 之 后 再 次 执行 echo $this->id; 时 直接 根据 opline 从 zend_op_literals 中 
取出 “id" 的 zval， 得 到 缓存 数据 保存 位 置 : 0， 然 后 去 zend_op_array- 
>run _ time_cache 取 出 缓存 的 zend_class_entry、offset ° 


这 个 例子 缓存 数据 占用 了 16 字 节 (2 个 sizeof(void*)) 大 小 的 空间 ， 而 有 的 只 需要 8 字 
节 ， 取 决 于 操作 类 型 : 


e 8 字 节 : 常量、 函数、 类 
e。 16 字 节 : 成 员 属 性 、 成 员 方 法 、 类 常量 


另外 一 个 问题 是 这 些 操 作 数 的 缓存 位 置 (zval.u2.cache _ slot) 是 在 什么 阶段 确定 的 
呢 ?实际 上 这 个 值 是 在 编译 阶段 确定 的 ， 通 过 zend_op_array.cache _ size 记录 缓存 
可 用 起 始 位 置 ， 编 译 过 程 中 如 果 发 现 当 前 操作 适用 缓存 机 制 ， 则 根据 缓存 数据 的 大 
小 从 cache _ size 开始 分 配 8 或 16 字 节 给 那个 操作 数 ，cache _size 向 后 移动 对 应 大 
小 ， 然 后 将 起 始 位 置 保存 于 CONST 操 作 数 的 zval.u2.cache _ slot 中 ， 执 行 时 直接 根 
据 这 个 值 确 定 缓存 位 置 。 


具体 缓存 的 读 写 通过 以 下 几 个 宏 完 成 : 





CACHE_PTR(Z_CACHE_SLOT_P(EX_CONSTANT(opline->0p1/2)), ptr); //pt 
r: 缓存 的 数据 指针 


/ [1 Hi ZS A3 


CACHED_PTR(Z_CACHE_SLOT_P(EX_CONSTANT (opline->0p1/2))); 





EJE NNN J]: E m u mr e aea AN ae LS, e EL at r EL LI AL 1 
//EX_CONSTANT(opline->op1/2) 不 取 当 前 IS_CONST 操 作 数 对 应 数据 的 ZVval 


((void**)((char*)execute data->run_ Line cache + (num)))[0] 


execute data. run Lime cache 缓存 的 zend_op_array- 


>run Lime Cache œ 


4.1 类 型 转换 


PHP 是 弱 类 型 语言 ， 不 需要 明确 的 定义 变量 的 类 型 ， 变 量 的 类 型 根据 使 用 时 的 上 下 
文 所 决定 ， 也 就 是 变量 会 根据 不 同 表 达 式 所 需要 的 类 型 自动 转换 ， 比 如 求 和 ，PHP 
会 将 两 个 相 加 的 值 转 为 Iong、double 再 进行 加 和 。 转 为 另外 一 种 类 型 都 有 
固定 的 规则 ， 当 某 个 操作 发 现 类 型 不 符 时 就 会 按照 这 个 规则 进行 转换 ， 这 个 规则 正 
是 弱 类 型 实现 的 基础 。 


余 了 自动 类 型 转换 ，PHP 还 提供 了 一 种 强制 的 转换 方式 : 


e (int)/(integer) ` 转换 为 整形 integer 

e (bool)/(boolean) ` 转换 为 布尔 类 型 boolean 
e (float)/(double)/(real) : 转换 为 浮 点 型 float 
e (string) ` 转换 为 字符 串 string 

e (array) : 转换 为 数组 array 

e (object) ` 转换 为 对 象 object 

e (unset) ` 转换 为 NULL 


无 论 是 自动 类 型 转换 还 是 强制 类 型 转换 ， 不 是 每 种 类 型 都 可 以 转 为 任意 其 他 类 型 。 


4.1.1 转换 为 NULL 


这 种 转换 比较 简单 ， 任 意 类 型 都 可 以 转 为 NULL， 和 转换 时 直接 将 新 的 Zzval 类 型 设置 
为 IS_NULL 即 可 。 


4.1.2 转换 为 布尔 型 


当 转 换 为 boolean 时 ， 根 据 原 值 的 TRUE、FALSE 决 定 转换 后 的 结果 ， 以 下 值 被 认 
为 是 FALSE : 


e 布尔 值 FALSE 本 身 
整 型 值 


e 浮 点 型 值 0.0 


所 有 其 它 值 都 被 认为 是 TRUE， 比 如 资源 、 对 象 (这 里 指 默认 情况 下 ， 因 为 可 以 通过 
扩展 改变 这 个 规则 )。 


判断 一 个 值 是 否 为 true 的 操作 : 


static zend always inline int i zend is true(zval *op) 


L 


int result = 0; 


again: 
switch (Z_TYPE_P(op)) { 
case IS_TRUE: 
result = 1; 
break; 
case IS_LONG: 
// Æ 0P Š 
if (Z_LVAL_P(op)) { 
result = 1; 
} 
break; 
case LG DOUBLE: 
if (LZ DVAL P(op)) { 
result = 1; 
} 
break; 
case IG STRING: 
// 非 空 字符 串 及 "OQ" 外 都 为 true 
if (Z_STRLEN_P(op) > 1 || (Z_STRLEN_P(op) && Z_STRVA 
L_P(op)[0] != '0')) { 
result = 1; 
} 
break; 
case IS_ARRAY: 
// 非 空 数 组 为 true 
if (zend_hash_num_elements(Z_ARRVAL_P(op))) { 
result = 1; 
} 
break; 
case IS OBJECT: 
// 上 默认 情况 下 始终 返回 true 


result = zend_object_is_true(op); 
break; 

case IS_RESOURCE: 
// 合 法 资源 就 是 tr 


if (EXPECTED(Z_RES_HANDLE_P(op))) { 
result = 1; 


ue 


} 
case IS_ REFERENCE: 


op = Z_REFVAL_P(op); 
goto again; 
break; 
default: 
break; 


} 


return result; 


在 扩展 中 可 以 通过 convert_to_boolean() 这 个 函数 直接 将 原 zval 转 为 bool 型 » 
转换 时 的 判断 逻辑 与 1_zend_is_true() 一 致 。 


4.1.3 转换 为 整 型 
其 它 类 型 转 为 整形 的 转换 规则 : 


e NULL : 转 为 0 

e 布尔 型 : false 转 为 0，true 转 为 1 

e 浮 点 型 : 向 下 取 整 ， 比 如 : (int)2.8 => 2 

e 字符 串 : 就 是 C 语 言 strtoll() 的 规则 ， 如 果 字 符 串 以 合法 的 数值 开始 ， 则 使 用 该 
数值 ， 否 则 其 值 为 (R) ， 合 法 数值 由 可 选 的 正 负 号 ， 后 面 跟着 一 个 或 多 个 
数字 〈 可 能 有 小 数 点 ) ， 再 跟着 可 选 的 指数 部 分 

e 数组 : 很 多 操作 不 支持 将 一 个 数组 自动 整形 处 理 ， 比 如 : array() + 2 ， 将 
报 error 错 误 ， 但 可 以 强制 把 数组 转 为 整形 ， 非 空 数 组 转 为 1， 空 数组 转 为 0， 没 


有 其 他 值 

e 对 象 : 与 数组 类 似 ， 作 也 不 支持 将 对 象 自动 转 为 整形 ， 但 有 些 操作 只 会 
We 会 把 对 象 转 为 1 操作 的 ， 这 个 需要 看 不 同 操作 的 处 理 
情况 


e 资源 : 转 为 分 配给 这 个 资源 的 唯一 编号 


具体 处 理 : 


ZEND_API zend Long ZEND_FASTCALL _zval_get_long_func(zval "op 
{ 
try_again: 
switch (Z_TYPE_P(op)) { 
case IS_NULL: 
case IS_FALSE: 
return 0; 
case IS_TRUE: 
returna, 
case IS RESOURCE: 
// 资 源 将 转 为 zend_resource->handler 
return Z_RES_HANDLE_P(op); 
case IS_LONG: 
return Z_LVAL_P(op); 
case IS_DOUBLE: 
return zend_dval_to_lval(Z_DVAL_P(op)); 
case IS_STRING: 
// 字 符 串 的 转换 调用 C 语 言 的 Strtoll( ) 处 理 
return ZEND_STRTOL(Z_STRVAL P(op), NULL, 10); 
case IS_ARRAY: 
// 根 据 数 组 是 否 为 空转 为 0,1 
return zend_hash_ num _ elements(Z ARRVAL P(0p)) ? 1:0 





case IS OBJECT: 


{ 
zval dst; 
convert_object_to_type(op, &dst, IS_LONG, conver 
t_to_long); 
if (Z_TYPE(dst) == IS_LONG) { 
return Z_LVAL(dst); 
} else { 
// 默 认 情 况 就 是 1 
return 1; 
} 
} 


case LS REFERENCE: 
op = Z_REFVAL_P(op); 
goto try_again; 


EMPTY_SWITCH_DEFAULT_CASE( ) 
} 


returno: 


} 


<| EE + 











4.1.4 转换 为 浮 点 型 


除 字 符 串 类 型 外 ， 其 它 类 型 转换 规则 与 整形 基本 一 致 ， 就 是 整形 转换 结果 加 了 一 位 
小 数 ， 字 符 串 转 为 浮 点 数 由 zend_strtod() 完成 ， 这 个 函数 非常 长 ， 定 义 
在 zend_strtod.c 中 ， 这 里 不 作 说 明 。 


4.1.5 转换 为 字符 串 


一 个 值 可 以 通过 在 其 前 面 加 上 (string) 或 用 strval() 函数 来 转变 成 字符 串 。 在 一 个 需 
要 字符 串 的 表达 式 中 ， 会 自动 转换 为 string， 比 如 在 使 用 函数 echo 或 print 时 ， 或 
在 一 个 变量 和 一 个 string 进行 比较 时 ， 就 会 发 生 这 种 转换 。 


ZEND_API zend_string* ZEND_FASTCALL _zval_get_string_func(zval * 
op) 
{ 
try_again: 
switch (Z_TYPE_P(op)) { 
case IS_UNDEF: 
case IS_NULL: 
case IS_FALSE: 
// 转 为 空 字符 串 "" 
return ZSTR_EMPTY_ALLOC(); 
case IS_TRUE: 
T EE 


return zend_string_init("1", 1, 0); 
case IS_RESOURCE: { 


// 转 为 "Resource id #xxx" 


len = snprintf(buf, sizeof(buf), “Resource id #" ZEN 
D_LONG_FMT, (zend_long)Z_RES_HANDLE_P(op)); 
return zend_string_init(buf, len, 0); 


} 
case IS_LONG: { 
return zend_long_to_str(Z_LVAL_P(op)); 
} 
case IS_DOUBLE: { 
return zend_strpprintf(0, "%.*G", (int) EG(precision 
), Z_DVAL_P(op)); 
} 
case IS_ARRAY: 
// 转 为 "Array"， 但 是 报 Notice 
zend_error(E_ NOTICE, "Array to string conversion"); 
return zend_string_init("Array", sizeof("Array")-1, © 
); 
case IS_OBJECT: { 
// 报 Error 错 误 
zval tmp; 


zend_error(EG(exception) ? E_ERROR : E_RECOVERABLE_E 
RROR, "Object of class %s could not be converted to string", ZST 
R_VAL(Z_OBJCE_P(op)->name)); 

return ZSTR_EMPTY_ALLOC(); 


} 
case IS_REFERENCE: 


op = Z_REFVAL_P(op); 

goto try_again; 
case IS_STRING: 

return zend_string_copy(Z_STR_P(op)); 
EMPTY_SWITCH_DEFAULT_CASE() 


} 
return NULL; 


Ei — 


4.1.6 转换 为 数组 


如 果 将 一 个 null、integer、float、string、boolean 和 resource 类 型 的 值 转换 为 数 
组 ， 将 得 到 一 个 仅 有 一 个 元 素 的 数组 ， 其 下 标 为 0， 该 元 素 即 为 此 标量 的 值 。 换 名 
话说 ，(array)$scalarValue 与 array($scalarValue) 完全 一 样 。 


如 果 一 个 object 类 型 转换 为 array， 则 结果 为 一 个 数组 ， 数 组 元 素 为 该 对 象 的 全 部 

属性 ， 包 括 public、private、protected， 其 中 private 的 属性 转换 后 的 key 加 上 了 类 名 
作为 前 级，protected 属 性 的 key 加 上 了 "作为 前 级， 但 是 这 个 前 级 并 不 是 转 为 数组 
时 单独 加 上 的 ， 而 是 类 编译 生成 属性 zend_property_info 时 就 已 经 加 上 了 ， 也 就 是 

说 这 其 实 是 成 员 属 性 本 身 的 一 个 特点 ， 举 例 来 看 : 


class test { 
private $a = 123; 
public $b = "bbb"; 
protected $c = "eco: 
} 
$0bj = new test; 
print_r((array)$obj); 


[testa] => 123 
[b] => bbb 
[*c] => ccc 


转换 时 的 处 理 : 


ZEND_API void ZEND_FASTCALL convert_to_array(zval "op 
{ 
try_again: 
switch (Z_TYPE_P(op)) { 
case IS_ARRAY: 
break; 
case IS_OBJECT: 


if (Z_OBJ_HT_P(op)->get_properties) { 
// 获 取 所 有 属性 数组 
HashTable *obj_ht = Z_0BJ_HT_P(op)->get_properti 


es(op); 
// 将 数组 内 容 拷贝 到 新 


} 
case IS_NULL: 


ZVAL_NEW_ARR( op); 
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zend_hash_init(Z ARRVAL _P(op), 8, NULL, ZVAL_PTR_DTO 


R, ©); 
break; 
case IS_REFERENCE: 
zend_unwrap_reference(op); 
goto try_again; 
default: 
convert_scalar_to_array(op); 
break; 
} 
} 


// 其 他 标量 类 型 转 array 
static void Convert scalar_ to array(zval *op) 


{ 


zval entry; 


// 新 分 配 一 个 数组 ， 将 原 值 插入 数组 

ZVAL_NEW_ARR( op); 

zend_hash_init(Z ARRVAL P(op), 8, NULL, ZVAL_PTR_DTOR, 0); 
zend_hash_index_add_new(Z_ARRVAL_P(op), ©, &entry); 


ZVAL_COPY_VALUE(&entry, op); 


4.1.7 转换 为 对 象 


如 果 其 它 任何 类 型 的 值 被 转换 成 对 象 ， 将 会 创建 一 个 内 置 类 stdClass 的 实例 ` 如 果 
该 值 为 NULL， 则 新 的 实例 为 空 ; array 转 换 成 object 将 以 键 名 成 为 属性 名 并 具有 相 
对 应 的 值 ， 数 值 索 引 的 元 素 也 将 转 为 属性 ， 但 是 无 法 通过 "->" 访 问 ， 只 能 遍历 获 

取 ; 对 于 其 他 值 ， 会 以 scalar 作 为 属性 名 。 


ZEND_API void ZEND_FASTCALL Convert to object(zval *op) 


{ 


try_again: 


switch (Z_TYPE_P(op)) { 
case IS_ARRAY: 


ss_def, ht); 


{ 
HashTable *ht = Z_ARR_P(op); 


/7 以 Key 为 属性 名 ， 将 数组 元 素 拷贝 到 对 象 属性 


object_and_properties_init(op, zend_standard_cla 


break; 


} 


case IS_OBJECT: 


break; 


case IS NULL: 


object_init(op); 
break; 


case IS_REFERENCE: 


zend_unwrap_reference(op); 
goto try_again; 


default: { 


zval tmp; 

ZVAL_COPY_VALUE(&tmp, op); 
object_init(op); 

// 以 scalar 作 为 属性 名 

zend bach str add new(Z OBJPROP_P(op), 





eof("scalar")-1, &tmp); 


break; 


4.1.8 转换 为 资源 


无 法 将 其 他 类 型 转 为 资源 。 


"scalar" 


siz 


4.1 类 型 转换 
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4.2 选择 结构 


程序 并 不 都 是 顺序 执行 的 ， 选 择 结构 用 于 判断 给 定 的 条 件 ， 根 据 判 断 的 结果 来 控制 
程序 的 流程 。PHP 中 通过 if、elseif、else 和 switch 语 名 实现 条 件 控制 。 这 一 节 我 们 
就 分 析 下 PHP 中 两 种 条 件 语句 的 具体 实现 。 


4.2.1 if% 3 
Sain: 


if(Condition1){ 
Statement1,; 
}elseif(Condition2){ 
Statement2; 
}else{ 
Statement3; 


IF 语 句 有 两 部 分 组 成 ` condition( 条 件 )、statement( 声 明 )， 每 个 条 件 分 支 对 应 一 组 
这 样 的 组 合 ， 其 中 最 后 的 else 比 较 特 丈 ， 它 没有 条 件 ， 编 译 时 也 是 按照 这 个 逻辑 编 
ee en ， 其 具体 的 语法 规则 如 下 : 


if_stmt: 
if_stmt_without_else %prec T_NOELSE { $$ = $1; } 
| if_stmt_without_else T_ELSE statement 
{ $$ = zend_ast_list_add($1, zend_ast_create(ZEND_AS 
T_IF_ELEM, NULL, $3)); } 


D 
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if_stmt_without_else: 


T_IF '(' expr ')' statement { $$ = zend_ast_create_list(1 
, ZEND_AST_IF, 


zend_ast_create(ZEND_AST 
_IF_ELEM, $3, $5)); } 
| if_stmt_without_else T_ELSEIF '(' expr ')' statement 
{ $$ = zend_ast_list_add($1, zend_ast_create(ZEND_AS 
T_IF_ELEM, $4, $6)); } 


E 


EE N 可 以 看 出 ， 编 译 if 语 名 时 首先 会 创建 一 个 ZEND_AST_IF 的 节 
点 ， 这 个 节点 是 一 个 list， 用 于 保存 各 个 分 支 的 condition、statement， 编 译 每 个 分 
支 时 将 创建 一 个 ZEND_AST_IF_ELEM 的 节点 ， 它 有 两 个 子 节点 ， 分 别 用 来 记录 : 
condition 、statement， 然 后 把 这 个 节点 插入 到 ZEND_AST_IF 下 ， 最 终生 成 的 
AST : 


kind:ZEND_AST_IF 











waa 


kind:ZEND_AST_IF_ELEM 


oO Ce Ce 
A 多 

CN 各 E ZC 
2 KN 


条 件 | kndzEND_AST srVT usr| | 条 件 | kndzEhD Asr em ue 


| \ 


condition 1.1 statement 1.1 condition 2.1 statement 2.1 statement 3.1 
condition 1.2 statement 1.2 condition 2.2 statement 2.2 statement 3.2 

















编译 opcode 时 顺序 编译 每 个 分 支 的 condition、statement 即 可 ， 编 译 过 程 大 致 如 
ZE? 


e (1) 编译 当前 分 支 的 condition 语 名， 这 里 可 能 会 有 多 个 条 件 ， 但 最 终 会 归并 为 


一 个 true/false 的 结果 ; 

(2) 编译 完 condition 后 编译 一 条 ZEND_JMPZ 的 opcode， 这 条 opcode 用 来 判断 

当前 omnion 是 false， 如 果 当 前 condition 成 立 直接 继续 执行 本 组 

statement 即 可 ， 无 需 进行 跳 转 ， 但 是 如 果 不 成 立 就 需要 跳 过 本 组 的 

statement， 所 以 这 条 opcode 还 需要 知道 该 往 下 跳 过 多 少 条 opcode > 而 跳 过 的 
这 些 opcode 就 是 本 组 的 statement， 因 此 这 个 值 需 要 在 编译 完 本 组 statement 后 

才能 确定 ， 现 在 还 无 法 确定 ; 

(3) 编译 当前 分 支 的 statement 列 表 ， 其 节点 类 型 ZEND_AST_STMT_LIST， 就 

是 普通 语句 的 编译 ; 

(4) 编译 完 statement 后 编译 一 条 ZEND_JMP 的 opcode， 这 条 opcode 是 当 

condition 成 立 执行 完 本 组 statement 时 跳出 if 的 ， 因 为 当前 分 支 既 然 条 件 成 立 就 

不 需要 再 跳 到 其 他 分 支 ， 执 行 完 当前 分 支 的 statement 后 将 直接 跳出 让， 所 以 

ZEND_JMP 需 要 知道 该 往 下 跳 过 多 少 opcode， 而 跳 过 的 这 些 opcode 是 后 面 所 

有 分 支 的 opcode 数 ， 只 有 编译 完全 部 分 支 后 才能 确定 ; 

(5) 编译 完 statement 后 再 设置 步骤 (2) 中 条 件 不 成 立时 ZEND_JMPZ 应 该 跳 过 的 

opcode 数 ; 

(6) 重复 上 面 的 过 程 依次 编译 后 面 的 condition、statement， 编 译 完全 部 分 支 后 

再 设置 各 分 支 在 步骤 (4) 中 ZEND_JMP 跳 出 if 的 opcode 位 置 。 


具体 的 编译 过 程 在 zend_compile if() 中 ， 过 程 比较 清晰 : 


Void zend compile rizend ost ast) 


{ 


zend_ast_list *list = zend_ast_get_list(ast); 
EH tëe e GE 
uint32_t *jmp_opnums = NULL; 


// 用 来 保存 每 个 分 支 在 步 又 (4) 中 的 ZEND_JMP opcode 
if (list->children > 1) { 
jmp_opnums = safe_emalloc(sizeof(uint32_t), list->childr 


en - 1, 0); 


} 

// 依 次 编译 各 个 分 支 

Tor (i = 0; i < list->children; ++i) { 
zend_ast "elen ast = list->child[i]; 


zend_ast *cond_ast = elem_ast->child[0]; / /条件 
zend_ast *stmt_ast = elem ast->child[1]; // 声 明 


znode Cond node: 
uint32_t opnum_jmpz; 
if (cond_ast) { 
// 编 译 condition 
zend_compile expr(&cond node, cond_ast); 
// 编 译 condition 跳 转 opcode ` ZEND_JMPZ 
opnum_jmpz = Zend emit_cond jump(ZEND_JMPZ, &cond_no 





der 0); 

} 

// 编 译 statement 

zend_compile stmt(stmt ast); 

// 编 译 statement 执 行 完 后 跳出 if 的 0opcode : ZEND_JMP( 最 后 一 个 分 支 无 
需 这 条 opcode) 


if (i != list->children - 1) { 
jmp_opnums[i] = zend_emit_jump(0); 

} 

if (cond_ast) { 
// 2% S ZEND_JMPZ%k 3 opcodežt 
zend_update_jump_target_to_next(opnum_jmpz); 


if (list->children > 1) { 
// 设 置 前 面 各 分 支 Sstatement 执 行 完 后 应 跳 转 的 位 置 
for (i = 0; i < list->children - 1; ++i) { 
zend_update_jump_target_to_next(jmp_opnums[i]); //%Ż 
置 每 组 Stmt 最 后 一 条 jmp 跳 转 为 if 外 
} 


efree(jmp_opnums); 


最 终 if 语 名 编译 后 基本 是 这 样 的 结构 : 






wer Lag 


false 





executor 


jmp 


IF 后 语句 


执行 时 依次 判断 各 分 支 条 件 是 否 成 立 ， 成 立 则 执行 当前 分 支 statement， 执 行 完 后 
HIME ; 不 成 立 则 调 到 下 一 分 支 继续 判断 是 否 成 立 ， 以 此 类 推 。 不 管 各 分 支 条 
件 有 几 个 ， 其 最 终 都 会 归并 为 一 个 结果 ， 也 就 是 每 个 分 支 只 需要 判断 最 终 的 条 件 值 
是 否 为 true 即 可 ， 而 多 个 条 件 计算 得 到 最 终 值 的 过 程 就 是 普通 的 逻辑 运算 。 


跳 


Note: 注意 elseif 与 else if， 上 面 介绍 的 是 elseif 的 编译 ， 而 else if 则 实际 相当 于 
襄 套 了 一 个 ff， 也 就 是 说 一 个 if 的 分 支 中 包含 了 另外 一 个 if， 在 编译 、 执 行 的 过 程 
中 这 两 个 是 有 差别 的 。 


4.2.2 switch 语 句 


switch 语 句 与 ff 类似， 都 是 条 件 语句 ， 很 多 时 候 需 要 将 一 个 变量 或 者 表达 式 与 不 同 的 
值 进 行 比较 ， 根 据 不 同 的 值 执行 不 同 的 代码 ， 这 种 场景 下 用 if、switch 都 可 以 实现 ， 
但 switch 相 对 更 加 直观 。 


switch 语 法 : 


245 


switch(expression){ 
case Valuel: 
statement1,; 
case value2: 
statement2; 
default: 
statementn; 


这 里 并 没有 将 break 加 入 到 switch 的 语法 中 ， 因 为 严格 意义 上 break 并 不 是 switch 的 
一 部 分 ，break 属 于 另外 一 类 单独 的 语法 : 中 断 语 法 ，PHP 中 如 果 没 有 在 switch 中 加 
break 则 执行 时 会 从 命中 的 那个 case 开 始 一 直 执 行 到 结束 ， 这 与 很 多 其 它 的 语言 不 
同 (比如 ` golang) ° 


从 switch 的 语法 可 以 看 出 ，switch 主 要 包含 两 部 分 ` expression ` case list，case 
list 包 含 多 个 case， 每 个 case 包 含 value、statement 两 部 分 。expression 是 一 个 表达 


式 ， 但 它 将 在 case 对 比 前 执行 ， 所 以 Switch 和 最终 执 行 时 就 是 拿 expression 的 值 逐 个 
与 case 的 value 比 较 ， 如 果 相 等 则 从 命中 case 的 statement 开 始 向 下 执行 。 


下 面 看 下 switch 的 语法 规则 : 


Statement: 


| T_SWITCH '(' expr ')' switch_case_list { $$ zend aset C 
reate(ZEND_AST_SWITCH, $3, $5); } 


switch_case_list: 


Ee uwi { $$ = $2; } 
| EE E) { $$ = $3; } 
| ':' case_list T_ENDSWITCH ';' { $$ = $2; } 
| ':' ';' case list T ENDSWITCH ';' { $$ = $3; } 


Case List: 
empty */ { $$ zend ast Create list(0, ZEND AST_ SWIT 
CH_LIST); } 
| Case List T CASE expr Case separator inner_statement_lis 


{ $$ = zend ast Liser add($1, zend ast create(ZEND AS 
T_SWITCH_CASE, $3, $5)); } 
| Case List T _ DEFAULT Case separator Inner Statement List 
{ $$ = zend_ast_list_add($1, zend aset Create ZEND AS 
T_SWITCH_CASE, NULL, $4)); } 


1 


case_separator: 


从 语法 解析 规则 可 以 看 出 ，switch 最 终 被 解析 为 一 个 ZEND_AST_SWITCH 节点 ， 这 
个 节点 主要 和 包含 两 个 子 节点 : expression ` case list， 其 中 expression 节 点 比较 简 
单 ，case list 节 点 对 应 一 个 ZEND_AST_SWITCH_LIST 节点 ， 这 个 节点 是 一 个 list ， 
有 多 个 case 子 节点 ， 每 个 case 节 点 对 应 一 个 ZEND_AST_SWITCH_CASE 节点 ， 包 括 
value (或 expr) 、statement 两 个 子 节点 ， 生 成 的 AST 如 下 : 






kind:ZEND_AST_SWITCH 


kind:ZEND_AST_SWITCH_LIST 





expression 







kind:ZEND_AST_ kind:ZEND_AST_ 
SWITCH_CASE SWITCH_CASE 







statement 1.1 statement 2.1 


statement 1.2 statement 2.2 statement 3.1 


statement 3.2 


与 i 不同，switch 不 会 像 i 那样 依次 把 每 个 分 支 编译 为 一 组 组 的 condition、 
statement， 而 是 会 先 编译 全 部 case 的 value 表 达 式 ， 再 编译 全 部 case 的 statement， 
编译 过 程 大 致 如 下 : 


e (1) 首 先 编译 expression， 其 最 终 将 得 到 一 个 固定 的 value ; 

e (2) 依 次 编译 每 个 case 的 value， 如 果 value 是 一 个 表达 式 则 编译 expression， 与 
(1) 相 同 ， 执 行 时 其 最 终 也 是 一 个 国定 的 value， 每 个 case 编 译 一 条 
ZEND_CASE 的 opcode， 除 了 这 条 opcode 还 会 编译 出 一 条 ZEND_JMPNZ 的 
opcode， 这 条 opcode 用 来 跳 到 当前 case 的 statement 的 开始 位 置 ， 但 是 
statement 在 这 时 还 未 编译 ， 所 以 ZEND_JMPNZ 的 跳 转 值 暂 不 确定 ; 

e (3) 编 译 完全 部 case 的 value 后 接着 从 头 开 始 编译 每 个 case 的 statement， 编 译 前 
首先 设置 步骤 (2) 中 ZEND_JMPNZ 的 跳 转 值 为 当前 statement 起 始 位 置 。 


具体 编译 过 程 在 zend_compile switch() 中 ， 这 里 不 再 展开 ， 编 译 后 的 基本 结构 
如 下 : 


4.2 选择 结构 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


value 1 


| default i 


i j true 


statement 
default 









true 









executor 






执行 时 首先 如 果 switch 的 是 一 个 表达 式 则 会 首先 执行 表达 式 的 语句 ， 然 后 再 拿 最 终 
的 结果 和 逐个 与 case 的 值 比较 ， 如 果 case 也 是 一 个 表达 式 则 也 先 执行 表达 式 ， 执 行 完 
再 与 Switch 的 值 比 较 ， 比 较 结果 如 果 为 true 则 跳 到 当前 case 的 statement 位 置 开 始 顺 
序 执行 ， 如 果 结 果 为 false 则 继续 向 下 执行 ， 与 下 一 个 case 比 较 ， 以 此 类 推 。 


Note: 


(1) case 不 管 是 表达 式 还 是 固定 的 值 其 最 终 比 较 时 是 一 样 的 ， 如 果 是 表达 式 则 
将 其 执行 完 以 后 再 作 比 较 ， 也 就 是 说 switch 并 不 支持 case 多 个 值 的 用 法 ， 比 
如 : case value1 || value2 : statement， 这 么 写 首 先是 会 执行 (value1 || 
value2)， 然 后 把 结果 与 switch 的 值 比 较 ， 并 不 是 指 switch 的 值 等 于 value1 或 
Value2， 这 个 地 方 一 定 要 注意 ， 如 果 想 命中 多 个 value 只 能 写 到 不 同 case 下 


(2) switch 的 value 与 case 的 value 比 较 用 的 是 "=="， 而 不 是 "===" 
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4.3 循环 结构 


实际 应 用 中 有 许多 具有 规律 性 的 重复 操作 ， 因 此 在 程序 中 就 需要 重复 执行 某 些 语 
刹 。 循 环 结构 是 在 一 定 条 件 下 反复 执行 某 段 程序 的 流程 结构 ， 被 反复 执行 的 程序 被 
称 为 循环 体 。 循 环 语句 是 由 循环 体 及 循环 的 终止 条 件 两 部 分 组 成 的 。 


PHP 中 的 循环 结构 有 4 种 : while ` for ` foreach ` do while， 接 下 来 我 们 分 析 下 这 几 
个 结构 的 具体 的 实现 。 


4.3.1 while 和 人 循环 


while 循 环 的 语法 : 


while(expression) 
{ 

statement;// 人 循环 体 
} 


while 的 结构 比较 简单 ， 由 两 部 分 组 成 : expression、statement， 其 中 expression 为 
循环 判断 条 件 ， 当 expression 为 true 时 重复 执行 statement， 具 体 的 语法 规则 : 


statement: 


| T_WHILE '(' expr ')' while statement { $$ = zend aset cre 
ate(ZEND AST WHILE, $3, $5); } 


while_statement: 
statement { $$ = $1; } 
| ':' Inner Statement list T_ENDWHILE ';' { $$ = $2; } 


从 While 语法 规则 可 以 看 出 ， 在 解析 时 会 创建 一 个 ZEND_AST_WHILE 节点 ， 
expression 、statement 分 别 保存 在 两 个 子 节点 中 ， 其 AST 如 下 : 





kind:ZEND_AST_STMT_LIST 


statement 


while 编 译 的 过 程 也 比较 简单 ， 比 较 特 别 的 是 while 首 先 编译 的 是 循环 体 ， 然 后 才 是 
循环 判断 条 件 ， 更 像 是 do while， 编 译 过 程 大致 如 下 : 


e (1) 首先 编译 一 条 ZEND_JMP 的 opcode， 这 条 opcode 用 来 跳 到 循环 判断 条 件 
expression 的 位 置 ， 由 于 While 是 先 编译 循环 体 再 编译 循环 条 件 ， 所 以 此 时 还 无 
法 确定 具体 的 跳 转 值 ; 

e (2) 编译 循环 体 statement ` 编译 完成 后 更 新 步骤 (1) 中 ZEND_JMP 的 跳 转 值 ; 

e (3) 编译 循环 判断 条 件 expression ; 

e (4) 编译 一 条 ZEND_JMPNZ 的 opcode， 这 条 opcode 用 于 循环 判断 条 件 执行 完 
以 后 跳 到 循环 体 的 ， 如 果 循 环 条 件 成 立 则 通过 此 opcode 跳 到 循环 体 开 始 的 位 
置 ， 和 否则 继续 往 下 执行 ( 即 : 跳出 循环 )。 


具体 的 编译 过 程 : 


void zend compile while(zend ast “ast) 


í 


zend_ast *cond_ast ast->child[0]; 

zend_ast *stmt_ast = ast->child[1]; 

znode cond_node; 

uint32_t opnum_start, opnum_jmp, opnum_cond; 


//(1) 编 译 ZEND_JMP 
opnum_jmp = zend emt jump(0); 


zend_begin_loop(ZEND_NOP, NULL); 


//(2 ) 编 译 循 环 体 Statement，opnum_start 为 循环 体 起 始 位 置 
opnum_start = get_ next op_number (CG(active op_array)); 
zend_compile_ stmt(stmt_ast); 


// 设 置 ZEND_JMP opcode 的 跳 转 值 
opnum_cond = oet next op_number(CG(active op _ array)); 
zend_update jump_target(opnum "mp, opnum_cond); 


//(3) 编 译 循环 条 件 expression 
zend_compile expr(&cond_ node, cond ast); 


//(4) 编 译 ZEND_JMPNZ， 用 于 循环 条 件 成 立时 跳 回 循环 体 开 始 位 置 ` opnum_st 
art 
zend_emit_cond_ jump(ZEND_JMPNZ，&cond node, opnum_ start); 





Zend end loop(opnum_ cond); 


编译 后 opcode 整 体 如 下 : 


4.3 循环 结构 






循环 体 


statement 


| 循环 条 件 
| | expression 


Í ZEND_JMPNZ j 


jmp 






true executor 


while 后 语句 





运行 时 首先 执行 ZEND_JMP ， 跳 到 while 条 件 expression 处 开始 执行 ， 然 后 

由 ZEND_JMPNZ 对 条 件 的 执行 结果 进行 判断 ， 如 果 条 件 成 立 则 跳 到 循环 体 
statement 起 始 位 置 开始 执行 ， 如 果 条 件 不 成 立 则 继续 向 下 执行 ， 跳 出 while， 第 一 
次 循环 执行 以 后 将 不 再 执行 ZEND_JMP ， 后 续 循环 只 有 靠 ZEND_JMPNZ 控制 跳 
转 ， 循 环 体 执 行 完 成 后 接着 执行 循环 判断 条 件 ， 进 行 下 一 轮 循 环 的 判断 。 


Note: 实际 执行 时 可 能 会 省 略 ZEND_JMPNZ 这 一 步 ， 这 是 因为 很 多 while 条 件 
expression 执 行 完 以 后 会 对 下 一 条 opcode 进 行 判 断 ， 如 果 是 ZEND_JMPNZ M] 
直接 根据 条 件 成 立 与 否 进 行 快速 跳 转 ， 不 需要 再 由 ZEND_JMPNZ 判断 ， 比 如 : 


$a = 123; while($a > 100){ echo "yes";} $a > 100 对 应 的 opcode : 
ZEND_IS_SMALLER， 执 行 时 发 现 $a 与 100 类 型 可 以 直接 比较 (都 是 long)， 则 
直接 就 能 知道 循环 条 件 的 判断 结果 ， 这 种 情况 下 将 会 判断 下 一 条 opcode 是 否 为 
ZEND_JMPNZ， 是 的 话 直接 设置 下 一 条 要 执行 的 opcode， 这 样 就 不 需要 再 单 
独 执 行 依次 ZEND_JMPNZ 了 ° 


上 面 的 例子 如 果 $a = '123'; 就 不 会 快速 进行 处 理 了 ， 而 是 按照 正常 的 逻辑 
调用 ZEND_JMPNZ。 


4.3.2 do while 和 人 循环 


do while 与 while 非 常 相 似 ， 唯 一 的 区 别 在 于 do while 第 一 次 执行 时 不 需要 判断 循环 
条 件 。 
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do while 循 环 的 语法 : 


do{ 
Statement: //78 I% 
}while(expression) 


do while 编 译 过 程 与 while 的 基本 一 致 ， 不 同 的 地 方 在 于 do while 没 有 ZEND_JMP 这 
条 opcode : 


void zend compile do while(zend ast *ast) 


{ 
zend_ast *stmt ast = ast->child[0]; 
ast->child[1]; 


zend_ast *cond_ast 


znode cond_node; 
uint32_t opnum_start, opnum_cond; 


//(1) 编 译 循环 体 statement ，opnum_start 为 循环 体 起 始 位 置 
opnum_start = get_next op_number (CG(active op_array)); 
zend_compile_stmt(stmt_ast); 


//(2) 编 译 循环 判断 条 件 expression 
opnum_cond = get_next_op_number(CG(active_op_array)); 
zend_compile expr(&cond_ node, cond_ast); 


//(3) 编 译 ZEND_JMPNZ 
zend_emit_cond_ jump(ZEND_JMPNZ，&cond node, opnum_ start); 





编译 后 的 结果 : 


循环 体 


statement 








executor 





true 


循环 条 件 


expression 






ZEND_JMPNZ 





do while 后 语句 





运行 时 首先 执行 循环 体 statement， 然 后 执行 循环 判断 条 件 ， 如 果 条 件 成 立 跳 到 循环 
体 起 始 位置 ， 否 则 结束 循环 。 


4.3.3 for 衢 环 
for 循 环 语法 : 


for (init expr; condition expr; loop expr){ 
statement 


init expr 在 循环 开始 前 无 条 件 执行 一 次 ， 后 面 循环 不 再 执行 ; condition expr 在 每 次 
循环 开始 前 运 莫 ， 是 循环 的 判断 条 件 ， 如 果 值 为 Hue， 则 继续 循环 ， 执 行 循 环 体 ， 
如 果 值 为 false， 则 终止 循环 ; loop expr 在 每 次 循环 体 执行 完 以 后 被 执行 。 


for 的 语法 规则 : 


Statement: 


| T_FOR '(' for_ exprs ';' for exprs ';' for exprs ')' for 
Statement 
{ $$ = zend_ast_create(ZEND_AST_FOR, $3, $5, $7, $9) 
SE 


从 语法 规则 可 以 看 出 ，for 被 编译 为 ZEND_AST_FOR 节点 ， 包 含 4 个 子 节点 ， 分 别 
为 : expr1 ` expr2 ` expr3 ` statement ° 









kind:ZEND_AST_FOR 









kind:ZEND_AST_ 
EXPR_LIST 





kind:ZEND_AST_ 
EXPR_LIST 


kind:ZEND_AST_ 
EXPR_LIST 






kind:ZEND_AST_STMT_LIST 





statement 


init expression condition loop expression 


for 的 编译 与 while 类 似 ， 只 是 多 了 init expr ` loop expr 两 部 分 ， 编 译 过 程 大 致 如 下 : 


e (1) 首先 编译 初始 化 表达 式 : init expr; 

e (2) 编译 一 条 ZEND_JMP 的 opcode， 此 opcode 用 于 跳 到 条 件 expression 位 置 ， 
具体 跳 转 值 需 要 后 面 才 能 确定 ; 

e (3) 编译 循环 体 statement ; 

e (4) 编译 loop expr ; 然后 设置 步骤 (2) 中 ZEND_JMP 的 跳 转 值 ; 

e (5) 编译 循环 条 件 : condition expr ; 

e (6) 编译 一 条 ZEND_JMPNZ ， 此 opcode 用 于 循环 条 件 成 立时 跳 到 循环 体 起 始 位 
置 。 


具体 编译 过 程 : 


void zend compile for(zend ast *ast) 


zend_ast *init_ast ast->child[0]; 
zend_ast *cond_ast = ast->child[1]; 
zend_ast *loop_ast = ast->child[2]; 


zend_ast *stmt_ast = ast->child[3]; 


znode result; 
uint32_t opnum_start, opnum_jmp, opnum_loop; 


//(1IL) 编 译 init expression 
zend_compile_expr_list(&result, init_ast); 
zend_do_free(&result); 


//(2) 编 译 ZEND_JMP 
opnum_jmp = zend_emit_ jump(0); 


/V/opnum_start 是 循环 体 起 始 位 置 
opnum_start = get_next_op_number(CG(active_op_array)); 


//(3) 编 译 循环 体 
zend_compile_stmt(stmt_ast); 


//(4) 编 译 loop expression 

opnum_loop = get_ next op_number(CG(active op array)); 
zend_compile expr_list(&result, Loop ast); 
zend_do_free(&result); 


// 设 置 ZEND_JMP 跳 转 值 
zend_update_jump_target_to_next(opnum_jmp); 


//(5) 编 译 循 环 条 件 expression 
zend_compile_expr_list(&result, cond_ast); 
zend_do_extended_info(); 


//(6) 编 译 ZEND_JMPNZ 
zend_emit_cond_jump(ZEND_JMPNZ, &result, opnum_start); 





循环 体 


statement 





jmp 


loop expression 


循环 条 件 
| expression 
| ZEND_JMPNZ l 





true 
executor 


| 






false 
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运行 时 首先 执行 初始 化 表达 式 : init expression， 然 后 执行 ZEND_JMP 跳 到 循环 条 
件 expression 处 ， 如 果 条 件 成 立 则 执行 ZEND_JMPNZ 跳 到 循环 体 起 始 位 置 依次 执行 
循环 体 、loop expression， 如 果 条 件 不 成 立 则 终止 循环 ， 第 一 次 循环 之 后 就 


日 


Æ: 循环 条 件 ->ZEND_JMPNZ-> 循 环 体 ->loop expression 之 间 循 环 了 。 
4.3.4 foreach 循 环 
foreach 是 PHP 针 对 数组 、 对 象 提 供 的 一 种 遍历 方式 ，foreach 语 法 : 


foreach (array_expression as $key => $value){ 
statement 


遍历 arraiy_expression 时 每 次 循环 会 把 当前 单元 的 值 赋 给 $value ， 当 前 单元 的 键 值 
赋 给 $key， 其 中 $key 可 以 省 略 ，$value 前 也 可 以 加 "&" 表 示 引 用 单元 的 值 。 


foreach 的 语法 规则 : 


Statement: 


// 省 略 key 的 规则 : foreach($array as $v){ ... } 


| T_FOREACH '(' expr T_AS foreach variable ')' foreach sta 
tement 
{ $$ = zend_ast_create(ZEND_AST_FOREACH, $3, $5, NULL 
, $7); } 
// 有 Kkey 的 规则 : foreach($array as $k=>$v){ ... } 


| T_FOREACH '(' expr T_AS foreach variable T_DOUBLE ARROW 
foreach_variable ')' Toreach statement 
{ $$ = zend ast create(ZEND AGT EOREACH, $3, $7, $5, 
$9); } 


El o 


foreach 在 编译 阶段 解析 为 ZEND_AST_FOREACH 节点 ， 包 含 4 个 子 节点 ， 分 别 表 
示 : 遍历 的 数组 或 对 象 、 遍 历 的 value、 遍 历 的 key 以 及 循环 体 ， 生 成 的 AST 类 似 这 


样 : 
kind:ZEND_AST_FOREACH 
x 
















kind:ZEND_AST_ 
VAR 





kind:ZEND_AST_ 
VAR 


kind:ZEND_AST_ 
VAR 






kind:ZEND_AST_STMT_LIST 


key statement 


array_expression value Bag 
ZS (可 能 为 NULL) 


如 果 Vvalue 是 指向 数组 或 对 象 成 员 的 引用 ， 则 value 对 应 的 节点 类 型 
为 ZEND_AST_REF ° 


相对 上 面 几 种 常规 的 循环 结构 ，foreach 的 实现 略 显 复杂 : $key、$value 实 际 就 是 两 
个 普通 的 局 部 变量 ， 人 遍历 的 过 程 就 是 对 两 个 局 部 变量 不 断 赋值 、 更 新 的 过 程 ， 以 数 
组 为 例 ， 首 先 将 数组 拷贝 一 份 用 于 遍历 (只 拷贝 Zzval，value 还 是 指向 同一 份 )， 从 
arData 第 一 个 元 素 开始 ， 把 Bucket.zval.value 值 赋值 给 $value， 把 Bucket.key( 或 
Bucket.h) 赋 值 给 $key， 然 后 更 新 迭代 位 置 : 将 下 一 个 元 素 的 位 置 记录 


在 zval,u2.fe iter idx 中 ， 这 样 下 一 轮 遍 历时 直接 从 这 个 位 置 开 始 ， 这 也 是 遍 
历 前 为 什么 要 拷贝 一 份 zval 用 于 遍历 的 原因 ， 如 果 发 现 zval.u2.fe iter idx 已 
经 到 达 arData 末 尾 了 则 结束 遍历 ， 销 毁 一 开始 找 贝 的 zval。 举 个 例子 来 看 : 


$arr = array(1,2,3); 
foreach($arr as $k=>$v){ 
echo $v; 


局 部 变量 对 应 的 内 存 结构 : 


Value.arr 


zend_execute_data HashTable 


gc.refcount:2 


Bucket *arData 










assign value 










Sarr 副本 


"okee Hu 









assign key 








——terator > 


如 果 value 是 引用 则 在 循环 前 首先 将 原 数 组 或 对 象 重 置 为 引用 类 型 ， 然 后 新 分 配 一 个 
ZVval 指 向 这 个 引用 ， 后 面 的 过 程 就 与 上 面 的 一 致 了 ， 仍 以 上 面 的 例子 为 例 ， 如 果 


是 : foreach($arr as $k=>&$v){ ... } M: 


value arr 
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了 解 了 foreach 的 实现 、 运 行 机 制 我 们 再 回头 看 下 其 编译 过 程 : 


e (1) 编译 拷贝 数组 、 对 象 操 作 的 指令 : ZEND_FE_RESET_R， 如 果 value 是 引 
用 则 是 ZEND_FE_RESET_RW。 执 行 时 如 果 发 现 遍历 的 变量 不 是 数组 、 对 
象 ， 则 抛 出 一 个 warning， 然 后 跳出 循环 ， 所 以 这 条 指令 还 需要 知道 跳出 的 位 
置 ， 这 个 位 置 需要 编译 完 foreach 以 后 才能 确定 ; 

e (2) 编译 fetch 数 组 /对 象 当 前 单元 key、value 的 opcode : ZEND_FE_FETCH_R ， 
如 果 是 引用 则 是 ZEND_FE_FETCH_RW ， 此 Opcode 还 需要 知道 当 遍 历 已 经 到 达 
数组 末尾 时 跳出 遍历 的 位 置 ， 与 步 又 (1) 的 opcode 相 同 ,另外 还 有 一 个 关键 操 
作 ， 前 面 已 经 说 过 遍历 的 key、value 实 际 就 是 普通 的 局 部 变量 ， 它 们 的 内 存 存 
储 位 置 正 是 在 这 一 步 分 配 确定 的 ， 分 配 过 程 与 普通 局 部 变量 的 过 程 完 全 相同 ， 
如 果 value 不 是 一 个 CV 交 量 ( 比 如 : foreach($arr as $v["xx"]){...)) 则 还 会 编译 其 
它 操作 的 opcode ; 

e (3) 如 果 foreach 定 义 了 key 则 编译 一 条 赋值 opcode， 此 操作 是 对 key 进 行 赋值 ; 

(4) 编译 循环 体 statement ; 

e (5) 编译 跳 回 遍历 开始 位 置 的 opcode : ZEND_JMP ， 一 次 遍历 结束 时 会 跳 回 步 
又 (2) 编 译 的 opcode 处 进行 下 次 遍历 ; 

e (6) 设置 步骤 (1)、(2) 两 条 opcode 跳 过 的 opcode 数 ; 

e (7) 编译 ZEND_FE_FREE ， 此 操作 用 于 释放 步骤 (1)" 找 贝 "的 数组 。 


最 终 编 译 后 的 结构 : 





Les FE RESET R 


S ZEND FE FEIOH R a 





ZEND_ASSIGN 


循环 体 







executor 


empty jmp 


statement 





ZEND_JMPNZ 


ZEND_FE_FREE 


foreach 后 语句 


运行 时 的 步 又 : 


e (1) 执行 ZEND_FE_RESET_R ， 过 程 上 面 已 经 介绍 了 ; 

e (2) 执行 ZEND_FE_FETCH_R ， 此 opcode 的 操作 主要 有 三 个 : 检查 遍历 位 置 是 
否 到 达 末 尾 、 将 数组 元 素 的 value 赋 值 给 $value、 将 数组 元 素 的 key 赋 值 给 一 个 
临时 变量 (注意 与 Value 不同 ) ; 

e (3) 如 果 定 义 了 key 则 执行 ZEND_ASSIGN ， 将 key 的 值 从 临时 变量 赋值 给 
$key， 否 则 跳 到 步骤 (4) ; 

e (4) 执行 循环 体 的 statement ; 

e (5) 执行 ZEND_JMPNZ 跳 回 步骤 (2) ; 

e (6) 遍历 结束 后 执行 ZEND_FE_FREE 释放 数组 。 


PHP 中 还 有 几 个 与 遍历 相关 的 函数 : 


e current() - 返回 数组 中 的 当前 单元 

e each() - 返回 数组 中 当前 的 键 值 对 并 将 数组 指针 向 前 移动 一 步 
e end() - 将 数组 的 内 部 指针 指向 最 后 一 个 单元 

e next() - 将 数组 中 的 内 部 指针 向 前 移动 一 位 

e prev() - 将 数组 的 内 部 指针 倒 回 一 位 


4.3 循环 结构 
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4.4 中 断 及 跳 转 


PHP 中 的 中 断 及 跳 转 语句 主要 有 break、continue、goto， 这 几 种 语句 的 实现 基础 都 
是 跳 转 。 


4.4.1 break 与 continue 


break 用 于 结束 当前 for、foreach、while、do-while 或 者 switch 结构 的 执行 ; 
continue 用 于 跳 过 本 次 循环 中 剩余 代码 ， 进 行 下 一 轮 循 环 。break、continue 是 非常 
相像 的 ， 它 们 都 可 以 接受 一 个 可 选 数字 参数 来 决定 跳 过 的 循环 层 数 ， 两 者 的 不 同 点 
在 于 break 有 是 跳 到 循环 结束 的 位 置 ， 而 continue 是 跳 到 循环 判断 条 件 的 位 置 ， 本 质 在 
于 跳 转 位 置 的 不 同 。 


break、continue 的 实现 稍微 有 些 复 杂 ， 下 面具 体 介 绍 下 其 编译 过 程 。 


上 一 节 我 们 已 经 介绍 过 循环 语句 的 编译 ， 其 中 在 各 种 循环 编译 过 程 中 有 两 个 特殊 操 
作 : zend_begin loop()、Zzend_end_ loop()， 分 别 在 循环 编译 前 以 及 编译 后 调用 ， 
这 两 步 操 作 就 是 为 break、continue 服 务 的 。 


在 每 层 循环 编译 时 都 会 创建 一 个 zend_brk_cont_element 的 结构 : 


typedef struct _zend_brk_cont_element { 





int start; 
Ine Cont, 
ine Drk; 
int parent; 
} zend_brk_cont_element; 


ele 录 的 是 当前 循环 判断 条 件 opcode 起 始 位 置 ，brk 记 录 的 是 当前 循环 结束 的 位 

> parent 记 录 的 是 父 层 循环 zend_brk_cont_element 结构 的 存储 位 置 ， 也 就 是 
EE zend brk cont element 的 链表 ， 每 层 循 环 编译 结 
时 更 新 自己 的 zend_brk_cont_element 结构 ， 所 以 break、continue 的 处 理 过 程 
实际 就 是 根据 跳出 的 层级 索引 到 那 一 层 的 zend_brk_cont_element 结构 ， 然 后 得 
到 它 的 cont、brk 进 行 相应 的 opcode 跳 转 。 


各 循环 的 end brk cont elenent 结构 保存 在 zend_op_array- 
>brk_cont_array 数组 中 ， 编 译 各 循环 时 依次 申请 一 

个 zend_brk_cont_element ， zend_ op_array->last_brk_cont 记录 此 数组 第 
一 个 可 用 位 置 ， 每 申请 一 个 元 素 last_brk_cont 就 相应 的 增加 1， 然 后 将 数组 扩容 ， 
parent 记 录 的 就 是 父 层 循环 结构 在 该 数组 中 的 存储 位 置 。 


Zend brk_cont element *get_next_brk_cont_element(zend_op_array * 
op arrav) 


{ 





op_array->last_brk_cont++; 

op_array->brk_cont_array = erealloc(op_array->brk_cont_array 
, Sizeof(zend_brk_cont_element)*op_array->last_brk_cont); 

return &op_array->brk_cont_array[op_array->last_brk_cont-1]; 


} 
示例 
$i = 0; 
while(1){ 
while(1){ 
if($i > 10){ 
break 2; 
} 
++$i 
} 
} 


循环 编译 完 以 后 对 应 的 内 存 结构 : 






CG({active_op_array)->brk_cont_array 
è statement 
内 层 循 环 


循环 条 件 


expression 


ZEND_JMPNZ 


循环 条 件 | eem 
expression 1 mp | 
ZEND_JMPNZ | .7 


外 层 循环 


介绍 完 编译 循环 结构 时 为 break、continue 做 的 准备 ， 接 下 来 我 们 具体 分 析 下 
break、continue 的 编译 。 


有 了 前 面 的 准备 ，break、continue 的 编译 过 程 就 比较 简单 了 ， 主 要 就 是 各 生成 一 条 
临时 opcode ` ZEND_BRK、ZEND_CONT， 这 条 opcode 记 录 着 两 个 重要 信息 : 


e Op1: 记录 着 当前 循环 zend_brk_cont_element 结构 的 存储 位 置 (在 循环 编译 


过 程 中 CG(context).current_brk_cont 记 录 着 当前 循环 zend_brk_cont element 
的 位 置 ) 


e Op2: 记录 着 要 跳出 循环 的 层级 ， 如 果 break/continue 没 有 加 数字 ， 则 默认 为 1 


void zend compile break continue(zend ast *ast ) 


{ 
zend_ast *depth aset = ast->child[0]; 


zend_op *opline; 
int depth; 


if (depth_ast) { 
zval *depth_zv; 


depth = Z_LVAL_P(depth_zv); 
} else { 
depth = 


// Æ opcode 

opline = zend_emit_op(NULL, ast->kind == ZEND_AST_BREAK ? ZE 
ND_BRK : ZEND_CONT, NULL, NULL); 

opline->opi.num = CG(context).current_brk_cont; //break ` con 
tinue 所 在 循环 层 

opline->op2.num = depth;  // 有 要 跳出 的 层 数 


zend_compile_break_continue() 到 这 一 步 完 成 整个 break、continue 的 编译 还 
没有 完成 ， 因 为 CG(active_op_array)->brk_cont_array 这 个 数组 只 是 编译 期 
间 使 用 的 一 个 临时 结构 ，break、 ENEE ZENDBRK ` 
ZENDCONT 并 不 是 运行 时 直接 执行 的 ， 这 条 opcode 在 整 GE 、 执 行 
前 被 优化 为 ”ZEND_JMP ， 这 个 操作 在 pass_two() 中 完成 ， 关 于 这 个 过 程 在 
《3.1.2.2 AST->zend op _array》 一 节 曾 经 介绍 过 。 


4.4 中 断 及 跳 转 


ZEND_API zend op array *complle file(zend file handle 


le, int type) 


{ 


// 语 法 解析 
zendparse(); 


//AST->opcodes 
zend_compile top_stmt(CG(ast)); 


pass_two(op_array); 


*file band 
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ZEND_API int pass_two(zend_op_array *op_array) 


í 


opline = op_array->opcodes; 
end = opline + op_array->last; 
while (opline < end) { 

switch (opline->opcode) { 


case ZEND_BRK: 
case ZEND_CONT: 
{ 


TaI A op FE o a 
// 1 A EFR ANL Së 
/ i H ATF 


uint32_t jmp_target = zend_get_brk_cont_target(o 





p_array, opline); 


// 将 opcode 修 改 为 ZEND_JMP 
opline->opcode = ZEND_JMP; 
opline->0op1.opline_num = jmp_target; 
opline->op2.num = 0; 


/ 12 Aë ak ak Enn Aen Aë Si AS 2 zb Jo ai A er e e 
// 将 绝对 跳 转 opcode 位 置 修改 为 相对 当天 opcode 的 位 置 


ZEND PAGGS "wO UPDATE JMP TARGET(op arrav, opline 


; Opline->op1); 


} 


break; 





op_array->fn_flags |= ZEND ACC DONE PASS TWO; 
returno; 


从 上 面 的 过 程 可 以 看 出 ， 如 果 opcode 为 : ZEND_BRK 或 ZEND_CONT 则 统一 设置 
opcode 为 ZEND_JMP ， 新 opcode 的 op1 记 录 的 是 break、continue 跳 到 opcode 的 位 
置 ， 这 个 值 根据 编译 期 间 的 zend_brk_cont_element 计算 得 到 ， 首 先 从 op1、 
op2 取 出 break、continue 所 在 循环 的 zend_brk_cont element 结构 以 及 要 跳 过 的 层 


级 ， 然 后 根据 end brk cont elenent parent 及 层级 数 找到 具体 要 跳出 层 
的 zend_brk_cont_element 结构 ， 从 这 个 结构 中 获得 那 层 循环 判断 条 件 及 循环 结 
束 的 opcode 的 位 置 。 


static Uint32 t zeng get brk cont target(const zend op_array op 





Tarray, Const zend op *opline) / 
int nest_levels = opline->op2.num; // 跳 出 的 层级 : break n; 
int array_offset = opline->opi.num;//break、continue 所 属 循环 Ze 
nd_brk_cont_element 的 存储 下 标 
zend_brk_cont_ element *jmp_to; 
do { 
// 从 break/continue 所 在 循环 层 开 始 
jmp_to = &op_array->brk_cont_array[array_offset]; 
if (nest_levels > 1) { 
// 如 果 还 没 到 要 跳出 的 层 数 则 接着 跳 到 上 层 
array_offset = jmp_to->parent; 
} 


} while (--nest_levels > 0); 


return opline->opcode == ZEND_BRK ? jmp_to->brk : jmp_to->co 
nt; 


上 面 那个 例子 最 终 执行 前 的 opcode 如 下 图 : 
















循环 条 件 
expression 
continue 2 


break 2 






循环 条 件 


expression 


执行 时 直接 跳 到 对 应 的 opcode 位 置 即 可 。 
Note: 


在 多 层 循环 中 break、continue 直 接 根 据 层 级 数字 跳 转 很 不 方便 ， 这 点 PHP 可 以 
借鉴 Golang 的 语法 :break/continue + LABEL ， 支 持 按 标签 break、continue ， 
根据 上 一 节 及 本 节 介 绍 的 内 容 这 一 个 实现 起 来 并 不 复杂 ， 有 兴趣 的 可 以 思考 下 


如 何 实现 。 


4.4.2 goto 


goto 操作 符 可 以 用 来 跳 转 到 程序 中 的 另 一 位 置 。 该 目标 位 置 可 以 用 目标 名 称 加 上 置 
号 来 标记 ， 而 跳 转 指令 是 goto 之 后 接 上 目标 位 置 的 标记 。PHP 中 的 goto 有 一 定 限 
制 ， 目 标 位 置 只 能 位 于 同一 个 文件 和 作用 域 ， 也 就 是 说 无 法 跳出 一 个 函数 或 类 方 
法 ， 也 无 法 跳 入 到 另 一 个 函数 ， 可 以 跳出 循环 但 无 法 跳 入 循环 (可 以 在 同一 层 循环 中 
跳 转 )， 多 层 循环 中 通常 会 用 goto 代 替 多 层 break。 


goto 语 法 : 


goto LABEL; 


LABEL: 
statement; 


goto 与 labe| 需 要 组 合 使 用 ， 其 实现 与 break、continue 类 似 ， 最 终 也 是 被 优化 
为 ZEND_JMP ， 首 先 看 下 定义 一 个 label 时 都 有 哪些 操作 : 


Statement: 


| T_STRING ':' { $$ = zend_ast_create(ZEND_AST_LABEL, $1); 


label 的 编译 过 程 非常 简单 ， 与 循环 结构 的 编译 类 似 ， 编 译 时 会 把 label 插 
A CG(context).labels 哈 硕 表 中 ，key 就 是 label 名 称 ，value 是 一 


个 zend Label 结构 : 


typedef struct _zend_label { 
int brk_cont; // 当 前 label 所 在 循环 
uint32_t opline_num; // 下 一 条 opcode 位 置 
} zend_label; 


brk_cont 用 于 记录 当前 label 所 在 的 循环 ， 这 个 值 就 是 上 面 介 绍 的 每 个 循环 

在 zend_op_array->brk_cont_array 数组 中 的 位 置 ; opline_num 比 较 容 易 理 
解 ， 就 是 label 下 面 第 一 条 opcode 的 位 置 。 到 这 里 你 应 该 能 猜 得 到 goto 的 工作 过 程 
了 ， 首 先 根 据 label 名 称 在 CG(context ) ,labels 查找 到 跳 转 label 

的 zend Label 结构 ， 然 后 jmp 到 zend_label.opline_num 的 位 置 ，brk_cont 的 
作用 是 用 来 判断 是 不 是 goto 到 了 另 一 层 循环 中 去 。label 具 体 的 编译 过 程 : 


void zend compile label(zend ast “ast) 

{ 
zend_string *label = zend_ast_get_str(ast->child[0]); 
zend_label dest; 


// 编 译 时 会 将 labe1 插 入 CG(context ) .Labe1ls 哈 市 表 
if (!CG(context).labels) { 
ALLOC_HASHTABLE(CG(context).labels); 
zend_hash_init(CG(context).labels, 8, NULL, label_ptr_dt 
Oir DE 


} 


// zE labeli & : 当前 所 在 循环 、 下 一 条 opcode 编 号 
dest.brk_cont = CG(context).current_brk_cont; 
dest.opline_num = get_next_op_number(CG(active_op_array)); 


if (!zend_hash_add_mem(CG(context).labels, label, &dest, siz 
eof (zend_label))) { 


zend_error_noreturn(E_COMPILE_ERROR, "Label '%s' already 
defined", ZSTR_VAL(label)); 


} 


goto 的 编译 过 程 : 


void zend_compile_goto(zend_ast "aer 
{ 
zend_ast *label_ast = ast->child[0]; 
znode label_node; 
zend_op *opline; 
uint32_t opnum_start = get next_op_number(CG(active op_array 


zend_compile expr(&label node, label_ast); 


// 如 果 当 前 在 一 个 循环 内 则 有 的 情况 下 是 不 能 简单 跳出 循环 的 

zend_handle SE and et 

// 编 译 一 条 临时 opcode ` ZEND GOT 

opline = zend_emit_op(NULL, ZEND GOTO, NULL, label nodei: 

opline->0op1.num = get_next_op_number(CG(active_op_array)) - 
opnum Start - 1; 

opline->extended_value = CG(context).current_brk_cont; 


goto 初 步 被 编译 为 ZEND_G0TO ， 其 中 label 名 称 保 存在 op2，extended value 记 录 

ee ， 如 果 没 有 在 循环 中 这 个 值 就 等 于 -1，op1 比 较 特 殊 ， 从 上 面 编 

译 的 过 程 分 析 ， 它 的 值 等 于 goto 之 间 EE goto 只 编译 了 一 

条 ZEND_GOTO 哪 来 的 其 他 opcode 呢 ? 这 种 情况 就 是 goto 在 一 个 循环 中 ， 上 一 节 介 
绍 的 循环 结构 中 有 一 个 比较 特殊 : foreach， 它 在 遍历 前 会 新 生成 一 个 zval 用 于 遍 

历 ， 这 个 zval 是 在 循环 结束 时 才 被 释放 ， 假 如 foreach 循 环 体 中 执行 了 goto， 直 接 像 
普通 跳 转 一 样 跳 到 了 别 的 位 置 ， 那 么 这 个 zval 就 无 法 释放 了 ， 所 以 这 种 情况 下 在 

goto 跳 转 前 需要 先 执行 这 些 收 尾 的 opcode， 这 些 opcode 就 是 上 

面 zend_handle_loops_and_finally() 编译 的 ， 有 具体 的 细节 这 里 不 再 展开 ， 有 

兴趣 的 可 以 仔细 研究 下 foreach 编 译 时 zend_begin_loop() 的 特殊 处 理 。 


后 面 的 处 理 就 与 break、continue 一 样 了 ， 在 pass_two() 中 ZEND_GOTO 被 重 置 
为 ZEND_JMP ， 具 体 的 处 理 过 程 在 zend_resolve goto label() ， 比 较 简 单 ， 
不 再 鞭 述 。 


4.5 include/require 


在 实际 应 用 中 ， 我 们 不 可 能 把 所 有 的 代码 写 到 一 个 文件 中 ， 而 是 会 按照 一 定 的 标准 
进行 文件 划分 ，include 与 require 的 功能 就 是 将 其 他 文件 包含 进来 并 且 执 行 ， 比 如 在 
面向 对 象 中 通常 会 把 一 个 类 定义 在 单独 文件 中 ， 使 用 时 再 include 进 来 ， 类 似 其 他 语 
言 中 包 的 概念 。 


include 与 require 没 有 本 质 上 的 区 别 ， 唯 一 的 不 同 在 于 错误 级 别 ， 当 文件 无 法 被 正常 
加 载 时 include 会 抛 出 warning 人 警告 ， 而 require 则 会 抛 出 error 错 误 ， 本 节 下 面 的 内 容 
将 以 include 说 明 。 


在 分 析 include 的 实现 过 程 之 前 ， 首 先 要 明确 include 的 基本 用 法 及 特点 : 


e 被 包含 的 Se ， 比 如 调用 文件 前 面 定 
义 了 一 些 变 量 ， 那 么 这 些 变量 就 能 够 在 被 包含 的 文件 中 使 有 用， 反之， 被 包含 文 
件 中 定义 的 变量 也 将 从 include 调 用 处 开始 可 以 被 被 调用 文件 所 使 用 。 

e 被 包含 文件 中 定义 的 函数 、 类 在 include 执 行 之 后 将 可 以 被 随处 使 用 ， 即 具有 全 
局 作用 域 。 

e include 有 是 在 运行 时 加 载 文件 并 执行 的 ， 而 不 是 在 编译 时 。 


这 几 个 特性 可 以 理解 为 include 就 是 把 其 它 文件 的 内 容 拷贝 到 了 调用 文件 中 ， 类 似 C 
语言 中 的 宏 (当然 执行 的 时 候 并 不 是 这 样 )， 举 个 例子 来 说 明 : 


//a. php 
Svar a= EE 
$var_2 = array(1,2,3); 


include bphp 


var_dump($var_2); 
var_dump($var_3); 


//b.php 
$var 2 = array(); 
$var 3 = 9; 


执行 php a.php 结果 显示 $var_2 值 被 修改 为 array() 了 ， 而 include 文 件 中 新 定义 的 
$var_3 也 可 以 在 调用 文件 中 使 用 。 


接 下 来 我 们 就 以 这 个 例子 详细 介绍 下 include 具 体 是 如 何 实现 的 。 





Be 
en zendparsef) zend_compile top_stmt!() Leet 
”| “词法 /语法 分 析 解析 AST， 生 成 opcodes 


前 面 我 们 曾 介绍 过 Zend 引 擎 的 编译 、 执 行 两 个 阶段 ( 见 上 图 )， 整 个 过 程 的 输入 是 一 
个 文件 ， Re PHP 代 码 ->AST->0pcodes->execute Ee 寺 程 完成 整个 处 

理 ， 编 译 过 程 的 输入 是 一 个 文件 ， 输 出 是 zend_op_array， 输 出 接着 成 为 执行 过 程 

的 输入 ， 而 include 的 处 理 实 际 就 是 这 个 过 程 ， 执 行 include 时 把 被 包含 的 文件 像 主 脚 
本 一 样 编译 然后 执行 ， 接 着 在 回 到 调用 处 继续 执行 。 






调用 文件 


被 包含 文件 


| include/require 
executor 
statement | 
! CJ 
| mum | aa 


include 的 编译 过 程 非 常 简单 ， 只 编译 为 一 条 opcode ` ZEND_INCLUDE_OR_EVAL ， 
下 面 看 下 其 具体 处 理 过 程 : 





static ZEND OPCODE HANDLER BET ZEND FASTCALL ZEND INCLUDE OR EVA 
L_SPEC_ CONST_HANDLER(ZEND_ OPCODE_HANDLER_ARGS) 
{ 

//include 文 件 编译 的 Zend_op_array 

zend_op_array *new op_array=NULL ， 


zval *inc_filename; 
zval tmp_inc_filename; 


zend_bool failure_retval=0; 


SAVE_OPLINE(); 


ue, 


inc_filename = EX_CONSTANT(opline->0p1); 


switch (opline->extended_value) { 


case ZEND_INCLUDE: 
case ZEND_REQUIRE: 
// 编 译 include 的 文件 
new_ op_array = compile_filename(opline->extended_val 


inc_filename); 


break; 


zend_execute_data *call; 


// 分 配 运行 时 的 zend_execute_data 
call = zend_vm_stack_push_call_frame(ZEND_CALL_NESTED_CODE, 





(zend_function*)new_op_array, ©, EX(called_scope), Z 


_O0BJ(EX(This))); 


ex() 


// 继 承 调 用 文件 的 全 局 变量 符号 表 
if (EX(symbol_table)) { 


call->symbol_table = EX(symbol_table); 


} else { 


} 


call->symbol_table = zend_rebuild_symbol_table(); 


// 保 存 当 前 zend execute data，include 执 行 完 再 还 原 


call->prev_execute data = execute data; 
// 执 行 前 初始 化 
i init Code execute data(call, new op array, return_value); 





TL 


//zend_execute_ex 执 行 器 入 口 ， 如 果 没 有 自 定 义 这 个 函数 则 默认 为 execute 


if (EXPECTED(zend_execute_ex == execute ex)) { 


// 将 执行 器 切 到 新 的 zend_execute_data， 回 忆 下 execute_ex() 中 的 切 


ZEND_VM_ENTER( ); 


整个 过 程 比较 容 多 理解 ， 编 译 的 过 程 不 再 重复 ， 与 之 前 介绍 的 没有 差别 ; 执行 的 过 
程 实际 非常 像 函 数 的 调用 过 程 ， 首 先 也 是 重新 分 配 了 一 个 zend_execute data， 然 
后 将 执行 器 切 到 新 的 zend_execute _ data， 执 行 完 以 后 再 切 回 调用 处 ， 如 果 include 
文件 中 只 定义 了 郊 数 、 类 ， 没 有 定义 全 局 变量 则 执行 过 程 实际 直接 执行 return， 只 

是 在 编译 阶段 将 函数 、 类 注册 到 EG(function_table)、EG(class_table) 中 了 ， 这 种 

情况 比较 简单 ， 但 是 如 果 有 全 局 变量 定义 处 理 就 比较 复杂 了 ， 比 如 上 面 那个 例子 ， 
两 个 文件 中 都 定义 了 全 局 变量 ， 这 些 变量 是 如 何 被 继承 、 合 并 的 呢 ? 





上 面 的 过 程 中 还 有 一 个 关键 操作 : i init_code_execute_data() ， 关 于 这 个 函 
数 在 前 面 介 绍 zend_execute() 时 曾 提 过 ， 这 里 面 除 了 一 些 上 下 文 的 设置 还 会 把 
当前 zend_op_array 下 的 变量 移 到 EG(symbol table) 全 局 变量 符号 表 中 去 ， 这 些 变 
量 相对 自己 的 作用 域 是 局 部 变量 ， 但 它们 定义 在 函数 之 外 ， 实 际 也 是 全 局 变量 ， 可 
以 在 函数 中 通过 global 访 问 ， 在 执行 前 会 把 所 有 在 php 中 定义 的 变量 
(zend_op_array->vars 数 组 ) 插 入 EG(symbol table)，value 指 向 zend_execute_data 
局 部 变量 的 zval， 如 下 图 : 






zend execute datz 


EE 

而 include 时 也 会 执行 这 个 步骤 ， 如 果 发 现 var 已 经 在 EG(symbol table) 存 在 了 ， 则 
会 把 value 重 新 指向 新 的 Zzval， 也 就 是 被 包含 文件 的 Zend execute_data 的 局 部 变 
量 ， 同 时 会 把 原 zval 的 value" 找 贝 " 给 新 zval 的 value， 概 括 一 下 就 是 被 包含 文件 中 的 
变量 会 继承 、 履 盖 调 用 文件 中 的 变量 ， 这 就 是 为 什么 被 包含 文件 中 可 以 直接 使 用 调 


用 文件 中 定义 的 变量 的 原因 。 被 包含 文件 在 zend_attach_symbol_table() 完成 
以 后 EG(symbole table) 与 zend_execute_ data 的 关系 : 







EG(symbol table) 

















4.5 include/require 


调用 include 的 文件 : 


Zend evecute data 


zval var_1 











zend_arra 


f Cl 
EG(symbol table) (refcount:1) 


被 包含 的 文件 : 
zend_execute data 


注意 : 这 里 include 文 件 中 定义 的 var 2 实际 是 替换 了 原文 件 中 的 变量 ， 也 就 是 
只 有 一 个 var 2， 所 以 此 处 zend _array 的 引用 是 1 而 不 是 2 


接 下 来 就 是 被 包含 文件 的 执行 ， 执 行 到 $var 2 = array() 时 ， 将 原 array(1,2,3) 
引用 减 1 变 为 0， 这 时 候 将 其 释放 ， 然 后 将 新 的 value ` array() 赋 给 $var 2， 这 个 过 
程 就 是 普通 变量 的 赋值 过 程 ， 注 意 此 时 调用 文件 中 的 $var 2 仍然 指向 被 释放 掉 的 
value， 此 时 的 内 存 关系 : 





调用 include 的 文件 : 
mi dh 
ttc 


被 包含 的 文件 ; 
zend_execute_data 

B 
| ws |e 


看 到 这 里 你 可 能 会 有 一 个 疑问 : $var 2 既然 被 重新 修改 为 新 的 一 个 值 了 ， 那 么 为 什 
么 调用 文件 中 的 $var 2 仍然 指向 释放 掉 的 value 呢 ?include 执 行 完成 回 到 原来 的 调 
用 文件 中 后 为 何 可 以 读 取 到 新 的 $var 2 值 以 及 新 定义 的 var 3 呢 ?答案 在 被 包含 文 
件 执 行 完 毕 return 的 过 程 中 。 


EG (symbol_table) 









value.zv 
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被 包含 文件 执行 完 以 后 最 后 执行 return 返 回调 用 文件 include 的 位 置 ，return 时 会 把 被 
包含 文件 中 的 全 局 变量 从 zend_execute_data 中 移 到 EG(symbol table) 中 ， 这 里 的 
移动 是 把 value 值 更 新 到 EG(symbol table)， 而 不 是 像 原来 那样 间接 的 指向 value > 
这 个 操作 在 zend_detach_symbol table() 中 完成 ， 具 体 的 return 处 理 : 


static ZEND_OPCODE_HANDLER_RET ZEND_FASTCALL zend Leave belner S 
PEC(ZEND_OPCODE_HANDLER_ARGS ) 


{ 





if (EXPECTED((ZEND_CALL_KIND_EX(call_info) & ZEND_CALL_TOP) 
= O 
// 将 include 文 件 中 定义 的 变量 移 到 EG(symbol_table) 
zend_detach _ symbol table(execute data); 
// 释 放 zend_op_array 
destroy_op_array(&EX(func)->op_array) 


old execute data = execute_data; 

// 切 回调 用 文件 的 Zend_execute_data 

execute_ data = EG(current execute data) = EX(prev_execut 
e_data); 

/Z/St ar includezi fräi zend evecute data 

Zend vm stack Tree call frame ex(call info, old execute 





data); 


// 重 新 attach 


zend_attach_symbol_table(execute_data); 


LOAD_NEXT_OPLINE(); 
ZEND_VM_LEAVE( ) ; 


// 函 数 、 主 脚本 返回 的 情况 


zend_detach_symbol_table() 操作 : 


ZEND API void zend detach symbol_ table(zend execute data “execut 
e data 
{ 
zend_op_array *op_array = &execute data->func->op_array; 
HashTable *ht = execute_data->symbol_table; 


/* copy real values from CV slots into symbol table */ 
if (EXPECTED(op_array->last_var)) { 

zend_string **str = op_array->vars; 

zend_string **end = str + op_array->last_var; 

zval *var = EX_VAR_NUM(O ) ， 


do { 
if (Z_TYPE_P(var) == IS_UNDEF) { 
zend_hash_del(ht, *str); 
} else { 
zend_hash_update(ht, *str, var); 
ZVAL_UNDEF (var); 
} 
Strit, 
var++; 
} while (str != end); 


完成 以 后 EG(symbol_table) : 


调用 include 的 文件 ; 


zend_execute data 


zvalvar_3 arFay(2 3 对 


EG(symbol table) = z 


zend_array 


(refcount:1) wrayl) 





接着 是 还 原 调 用 文件 的 zend_execute_ data， 切 回调 用 文件 的 include 位 置 ， 在 将 执 
行 器 切 回 之 前 再 次 执行 了 zend_attach_symbol_table() ， 这 时 就 会 将 原 调用 文 
件 的 变量 重新 插入 全 局 变量 符号 表 ， 插 入 $var_ 2、$var_ 3 时 发 现 已 经 存在 了 ， 则 将 
局 部 变量 区 的 $var 2、$var 3 的 value 修 改 为 这 个 值 ， 这 就 是 $var 2 被 include 文 件 
更 新 后 覆盖 原 value 的 过 程 ， 同 时 $var 3 也 因为 在 调用 文件 中 出 现 了 所 以 值 被 修改 
为 include 中 设 定 的 值 ， 此 时 的 内 存 关系 : 


调用 include 的 文件 : 


zend_execute_data 


zend—array 
pe OR = 4 
IT 
zend_array 
(refcount:1) 


这 就 是 include 的 实现 原理 ， 整 个 过 程 并 不 复杂 ， 比 较 难 理解 的 一 点 在 于 两 个 文件 之 
间 变 量 的 继承 、 履 盖 ， 可 以 仔细 研究 下 上 面 不 同 阶段 时 的 内 存 关系 图 。 


SLP 
hi 
















EG (symbol_table) 





array() 


最 后 简单 介绍 下 include_once、require_once， 这 两 个 与 include、require 的 区 别 是 
在 一 次 请 求 中 同一 文件 只 会 被 加 载 一 次 ， 第 一 次 执行 时 会 把 这 个 文件 保存 在 
EG(included files) 哈 希 表 中 ， 再 次 加 载 时 检查 这 个 哈 希 表 ， 如 果 发 现 已 经 加 载 过 则 
直接 跳 过 。 


4.6 A F A 


PHP 的 异常 处 理 与 其 oa 
必须 只 有 定义 在 try{...} 块 中 才 可 以 被 捕获 ， 捕 获 以 后 将 跳 到 catch 块 中 进行 处 理 ， 不 
再 执行 try 中 抛 出 异常 之 后 的 代码 。 


异常 可 以 在 任意 位 置 抛 出 ， 然 后 将 由 最 近 的 一 个 try 所 捕获 ， 如 果 在 当前 执行 空间 没 
有 进行 捕获 ， 那 么 将 调用 栈 一 直 往 上 抛 ， 上 比如 在 一 个 函数 内 部 抛 出 一 个 异常 ， 但 是 
苑 数 内 没有 进行 try， 而 在 隐 数 调用 的 位 置 try 了 ， 那 么 就 由 调用 处 的 catch 捕 获 。 


接 下 来 我 们 从 两 个 方面 介绍 下 PHP 弄 常 处 理 的 实现 。 


4.6.1 开 第 处 理 的 编译 
异常 捕获 及 处 理 的 语法 


try{ 
try statement; 
}catch(exception class 1 Seil 
catch statement 1; 
}catch(exception class 2 $e){ 
catch statement 2; 
}finally{ 
finally statement; 


try 表 示 要 捕获 try statement 中 可 能 抛 出 的 异常 ; catch 是 捕获 到 异常 后 的 处 理 ， 可 以 
定义 多 个 ， 当 try 中 抛 出 异常 时 会 依次 检查 各 个 catch 的 异常 类 是 否 与 抛 出 的 匹配 ， 
如 果 匹 配 则 有 命中 的 那个 catch 块 处 理 ; finally 为 最 后 执行 的 代码 ， 不 管 是 否 有 异常 
抛 出 都 会 执行 。 


语法 规则 : 


Statement: 


| T_TRY '{' inner_statement_list '}' catch_list finally_st 
atement 


{ $$ = zend_ast_create(ZEND_AST_TRY, $3, $5, $6); } 


b 
catch_list: 
Z'" emp "4 
{ $$ = zend ast Create list(0, ZEND AGT CATH LIST: 


| Catch Lier T_CATCH '(' name T_VARIABLE ')' '{' Inner sta 
tement_list '}' 


{ $$ = zend_ast_list_add($1, zend_ast_create(ZEND_AS 
T_CATCH, $4, $5, $8)); } 
finally_statement: 
AJ" emptv -7 Ié NULL: 
| T_FINALLY '{' Inner statement_list '}' { $$ = $3; } 


从 语法 规则 可 以 看 出 ，try-catch-finally 最 终 编译 为 一 个 ZEND_AST_TRY 节点 ， 包 含 
三 个 子 节 点 ， 分 别 是 : try statement ` catch list ` finally statement，try 

statement ` finally statement 就 是 普通 的 ZEND_AST_STMT_LIST 节点 ，catch listé 
含 多 个 ZEND_AST_CATCH 节点 ， 每 个 节点 有 三 个 子 节点 ` exception class ` 
exception object 及 catch statement， 最 终生 成 的 AST : 


kind:ZEND_AST_TRY 


kind:ZEND_AST_CATCH _LIST 
Bag 
kind:ZEND_AST 
_CATCH 











[Tjplty> 








kind:ZEND_AST_STMT 
_LIST 





kind:ZEND_AST_STMT 
_LIST 





o 


kind:ZEND_AST 
_CATCH 


具体 的 编译 过 程 如 下 : 





try statement finally statement 





e (1) 向 所 属 zend_op_array 注 册 一 个 zend try_catch_element 结 构 ， 所 有 try 都 会 
注册 一 个 这 样 的 结构 ， 与 循环 结构 注册 的 zend_brk_cont_element 类 似 ， 当 前 
zend_op_array 所 有 定义 的 异常 保存 在 zend_op_array->try_catch_array 数 组 
中 ， 这 个 结构 用 来 记录 try、catch 以 及 finally 开 始 的 位 置 ， 具 体 结构 : 


typedef struct _zend_try_catch_element { 





uint32_t try_op; //try 开 始 的 0pCOde 位 置 
uint32_t catch _ op;  // 第 1 个 catch 块 t 

uint32_t finally_op; //finally 开 6 EE 
uint32_t finally_end;//finally 结 来 的 0pcode 位 置 


} zend rv catch element: 


e (2) 编译 try statement， 编 译 完 以 后 如 果 定 义 了 catch 块 则 编译 一 
条 ZEND_JMP ， 此 opcode 的 作用 时 当 无 异常 抛 出 时 跳 过 所 有 catch 跳 到 finally 
或 整个 异常 之 外 的 ， 因 为 catch 块 是 在 try statement 之 后 编译 的 ， 所 以 具体 的 跳 
转 值 目前 还 无 法 确定 ; 


e (3) 依次 编译 各 个 catch 块 ， 如 果 没 有 定义 则 跳 过 此 步 又， 每 个 catch 编 译 时 首先 
编译 一 条 ZEND_CATCH ， 此 opcode 保 存 着 此 catch 的 exception class ` 
exception object 以 及 下 一 个 catch 块 开始 的 位 置 ， 编 译 第 1 个 catch 时 将 此 
opcode 的 位 置 记录 在 zend try_catch_element.catch_op 上 ， 接 着 编译 catch 
statement， 最 后 编译 一 条 ZEND_JMP (最 后 一 个 catch 不 需要 )， 此 opcode 的 作 
用 与 步骤 (2) 的 相同 ; 


(4) 将 步骤 (2)、 步 骤 (3) 中 ZEND_JMP 跳 转 值 设 置 为 finally 第 1 条 opcode 或 异常 
定义 之 外 的 代码 ， 如 果 没 有 定义 finally 则 结束 编译 ， 否 则 编译 finally 块 ， 首 先 编 
译 一 条 ZEND_FAST_CALL 及 ZEND_JMP ， 接 着 编译 finally statement， 最 后 编 
译 一 条 ZEND_FAST_RET ° 


编译 完 以 后 的 结构 : 


try statement 1 Ernzen, 


SE 、 
ZEND JMP zend_op_array 
= 


"Eë *try_catch_array 






zend_try_catc 
h_element 


3 
© 
LO 
x 
A 
® 
K 
2 
© 
3 


finally statement 长 上--h--------------- 一 


E 


try-catch-finally 后 


异常 的 抛 出 通过 throw 一 个 异常 对 象 来 实现 ， 这 个 对 象 必 须 继承 > 自 Exception 类 ， 
抛 出 异常 的 语法 : 


throw exception _ object ， 
throw 的 编译 比较 简单 ， 最 终 只 编译 为 一 条 opcode ` ZEND_THROW ° 


4.6.2 异常 的 抛 出 与 捕获 


上 一 小 节 我 们 介绍 了 exception 结 构 在 编译 阶段 的 处 理 ， 接 下 来 我 们 再 介绍 下 运行 时 
exception 的 处 理 过 程 ， 这 个 过 程 相 对 比较 复杂 ， 整 体 的 讲 其 处 理 流 程 整体 如 下 : 


e (1) 检查 抛 出 的 是 否 是 object， 否 则 将 导致 error 错 误 ; 
e (2) 将 EG(exception) 设 置 为 抛 出 的 异常 对 象 ， 同 时 将 当前 
stack( 即 :zend_execute _data) 接 下 来 要 执行 的 opcode 设 置 
为 ZEND_HANDLE_EXCEPTION ; 
e (3) 执行 ZEND_HANDLE_EXCEPTION ， 查 找 匹 配 的 catch : 
o (3.1) 首先 遍历 当前 zend_op_array 下 定义 的 所 有 异常 捕获 ， 
PP zend_op_array->try_catch_array 数组 ， 然 后 根据 throw 的 位 置 、 
try 开 始 的 位 置 、catch 开 始 的 位 置 、finally 开 始 的 位 置 判 断 判 断 异 常 是 否 在 


try 范 围 内 ， 如 果 同 时 命中 了 多 个 try( 即 谋 套 try 的 情况 ) 则 选择 最 后 那个 (也 就 
是 最 里 层 的 )， 遍 历 完 以 后 如 果 命中 了 则 进入 步骤 (3.2) 处 理 ， 如 果 没 有 命中 
当前 stack 下 任何 try 则 进入 步骤 (4) ; 

o (3.2) 到 这 一 步 表 示 抛 出 的 异常 在 当前 zend_op_array 下 有 try 拦 截 (注意 这 
里 只 是 表示 异常 在 try 中 抛 出 的 ， 但 是 抛 出 的 异常 并 一 定 能 被 catch)， 然 后 
根据 当前 try 块 的 zend_try_catch_element 结构 取出 第 一 个 catch 的 位 
置 ， 将 opcode 设 置 为 zend mv catch element catch op， 跳 到 第 一 个 
catch 块 开始 的 位 置 执行 ， 即 :执行 ZEND_CATCH ; 

o (3.3) 执行 ZEND_CATCH ， 检 查 抛 出 的 异常 对 象 是 否 与 当前 catch 的 类 型 匹 

已 ， 检 查 的 过 程 为 判断 两 个 类 是 否 存在 父子 关系 ， 如 果 匹 配 则 表示 异常 被 

成 功 捕获 ， 将 EG(exception) 清 空 ， 如 果 没有 则 跳 到 下 一 个 catch 的 位 置 重 
复 步 又 (3.3)， 如 果 到 最 后 一 个 catch 仍 然 没 有 命中 则 在 这 个 catch 的 位 置 抛 
出 一 个 异常 (实际 还 是 原来 按 个 异常 ， 只 是 将 抛 出 的 位 置 转 移 了 当前 catch 
的 位 置 )， 然 后 回 到 步骤 (3); 

e (4) 当前 zend_op_array 没 能 成 功 捕获 异常 ， 需 要 继续 往 上 抛 : 回 到 调用 位 置 ， 
将 接 下 来 要 执行 的 opcode 设 置 为 GE > eta gä F AM 
出 了 一 个 异常 没有 在 函数 中 捕获 ， 则 跳 到 调用 的 位 置 继续 捕获 ， 回 到 步骤 (3) ; 
如 果 到 最 终 主 脚本 也 没有 被 捕获 则 将 结 ee 误 。 





call function 





exception 


过 程 最 复杂 的 地 方 在 于 异常 匹配 、 传 递 的 过 程 ， 主 要 
ap ZEND_HANDLE_EXCEPTION ` ZEND_CATCH 两 条 opcode 之 问 的 调用 ， 当 抛 出 一 
个 异常 时 会 终止 后 面 opcode 的 执行 ， 转 向 执行 ZEND_HANDLE_EXCEPTION ， 根 据 
异常 抛 出 的 位 置 定位 到 最 近 的 一 个 try 的 catch 位 置 ， 如 果 这 个 catch 没 有 匹配 则 跳 到 
下 一 个 catch 块 ， 然 后 再 次 执行 ZEND_HANDLE_EXCEPTION ， 如 果 到 最 后 一 个 catch 
仍 没有 匹配 则 将 异常 抛 出 前 位 置 EG(opline_before_exception) 更 新 为 最 后 一 个 catch 
的 位 置 ， 再 次 执行 ZEND_HANDLE_EXCEPTION ， 由 于 异常 抛 出 的 位 置 已 经 更 新 了 所 


以 不 会 再 匹配 上 次 检查 过 的 那个 catch， 这 个 过 程 实际 就 是 不 断 递 归 执 
行 ZEND_HANDLE_EXCEPTION ` ZEND_CATCH ; 如 果 当 前 zend_op _array 都 无 法 捕 
获 则 将 异常 抛 向 上 一 个 调用 栈 继续 捕获 ， 下 面 根据 一 个 例子 具体 说 明 下 : 


function my_func(){ 
E 
throw new Exception("This is a exception from my_func()"); 


try{ 

my_func(); 
}catch(ErrorException Zeil 

echo "ErrorException"; 
}catch(Exception $e){ 

echo “Exception™; 


my_func() 中 抛 出 了 一 个 异常 ， 首 先 在 my_func() 中 抛 出 一 个 异常 ， 然 后 在 my_func() 
的 Zend_op_array 中 检查 是 不 是 能 够 捕获 ， 发 现 没有 ， 则 回 到 调用 的 位 置 ， 再 次 检 
查 ， 第 1 次 匹配 到 catch(ErrorException $e) ， 检 查 后 发 现 并 不 匹配 ， 然 后 跳 
到 下 一 个 catch 块 继续 匹配 ， 第 2 次 匹配 到 catch(Exception $e) ， 检 查 后 发 现 命 
中 ， 捕 获 成 功 。 


exception 


opline_before_exc 
eption 


€ call i 


ZEND_JMP 


> ZEND_CATCH LU 


catch statement 
ZEND_JMP 















上 面 的 过 程 并 没有 提 到 finally 的 执行 时 机 ， 首 先 要 明确 finally 在 哪些 情况 下 会 执行 ， 
命中 catch 的 情况 比较 简单 ， 即 在 catch statement 执 行 完 以 后 跳 到 finally 执 行 ， 另 外 
一 种 情况 是 如 果 一 个 异常 在 try 中 但 没有 命中 任何 catch 那 么 其 finally 也 是 会 被 执行 

的 ， 这 种 情况 的 finally 实 际 是 在 步骤 (3) 中 执行 的 ， 最 后 一 个 catch 检 查 完 以 后 会 更 新 
异常 抛 出 位 置 : EG(opline_before_exception)， 然 后 会 再 次 执 

行 ZEND_HANDLE_EXCEPTION ， 再 次 检查 时 就 会 发 现 没有 命中 任何 catch 但 命中 
finally 了 (因为 异常 位 置 更 新 了 )， 这 时 候 就 会 将 异常 对 象 保存 在 finally 块 中 ， 然 后 执 
行 finally， 执 行 完 再 将 异常 对 象 还 原 继续 捕获 ， 下 面 看 下 步骤 (3) 的 具体 处 理 过 程 : 


static ZEND OPCODE HANDLER RET ZEND FASTCALL ZEND HANDLE EXCEPTI 
ON GPEC HANDLER(ZEND_ OPCODE_ HANDLER ARGS) 
{ 

//op_num 为 异常 抛 出 的 位 置 ， 根 据 异 常 抛 出 前 最 后 一 条 opcode 与 第 一 条 opcode 
计算 得 出 

uint32_t op_num = EG(opline before exception) - EX(func)->op 
_array.opcodes; 


uint32_t catch_op_num = ©, finally_op_num = ©, finally_op_en 
d = 0; 


// 查 找 异 常 是 不 是 被 try 了 : 找 最 近 的 一 层 try 
Tor (i = 0; i < EX(func)->op_array.last_try_catch; i++) { 
if (EX(func)->op_array.try_catch_array[i].try_op > op nu 


m) { 
//try 在 抛 出 之 后 
break; 
} 
in_finally zo: 
// 异 常 抛 出 位 置 在 try 后 且 比 第 一 个 catch 位 置 小 ， 表明 这 个 try 有 可 能 捕获 
异常 
if (op_num < EX(func)->op_array.try_catch_array[i].catch 
_op) { 
// 第 一 个 catch 的 位 置 
Catch op num = EX(func)->op_array.try_catch array[i] 
.Catch_op; 


} 
// 当 前 try 有 finally 
if (op_num < EX(func)->op_array.try_catch_array[i].final 
ly_op) { 
finally_op_num = EX(func)->op_array.try_catch arrayl[ 
i].finally_op; 
finally_op_end = EX(func)->op_array.try_catch_array[ 
i].finally_end; 
} 
if (op_num >= EX(func)->op_array.try_catch array[i].fina 
lly_op Së 
op num < EX(func)->op_array.try_catch array[i].f 
inally_end) { 
finally_op_end = EX(func)->op_array.try_catch arrayl[ 
i].finally_end; 
in_finally = 1; 


cleanup_unfinished_calls(execute_data, op_num); 


// 异 常 命中 了 try 但 没有 命中 任何 Catch 且 那个 try 定义 了 final1ly : 需要 执行 fi 
nally 

//catch_op_num >= finally_op_numě try z > A Xfinally 4#% 
查 完 所 有 Catch、 更 新 异常 抛 出 位 置 之 后 再 执行 的 


// 所 以 检查 完 内 层 try 再 检查 外 层 循环 时 会 出 现 这 种 情况 
if (finally_op_num && (!catch op num || catch op num >= fina 
lly_op_num)) { 
zval "fast call = EX VAR(EX(func)->op_array.opcodes[fina 
lly_op_end].op1.var); 


cleanup_live_vars(execute_data, op_num, finally_op_num); 
if (in_finally Së Z_0BJ_P(fast_call)) { 
zend_exception_set_previous(EG(exception), Z_0BJ_P(f 
ast_call)); 
} 
// 临 时 将 EG(exception) 转 移 到 final1y 下 ， 执 行 完 final1y 再 抛 出 
Z_OBJ_P(fast_call) = EG(exception ) 
EG(exception) = NULL; 
fast_call->u2.lineno = (uint32_t)-1; 
ZEND_VM_SET_OPCODE(&EX(func)->op_array.opcodes[finally_o 
p_num]); 
ZEND_VM_CONTINUE( ); 
}else{ 
// 这 个 是 善后 处 理 ， 因 为 异常 抛 出 后 后 面 的 opcode 将 不 再 执行 ， 但 有 些 情况 
下 还 需要 把 一 些 资源 释放 掉 
// 比 如 前 面 我 们 介绍 goto 时 提 到 的 foreach 中 是 不 能 直接 跳出 的 ，throw 也 


是 类 似 
cleanup_live vars(execute data, op num, Catch op numl: 
if (catch op num) { 
// 配 到 catch( 但 不 一 定 命中 ) ， 跳 到 catch 处 执行 ZEND_CATCH 进 行 
判断 
ZEND_VM_SET_OPCODE(&EX(func)->op_array.opcodes[catch 
_op_num]); 


ZEND_VM_CONTINUE( ); 
} else if (UNEXPECTED( (EX(func)->op_array.fn_flags & ZEN 
D_ACC_GENERATOR) != 0)) { 


} else { 
// 当 前 zend_op_array 下 已 经 没有 匹配 到 的 try 了 ， 如 果 异 常 仍 没 有 
被 捕获 则 将 在 zend_leave_helLper_SPEC() 将 异常 抛 给 prev_execute_data 继 续 捕 
获 
ZEND_VM_TAIL_CALL(zend_leave_helper_SPEC(ZEND_OPCODE 
_HANDLER_ARGS_PASSTHRU)); 


具体 的 实现 过 程 还 有 很 多 额外 的 处 理 ， 这 里 不 再 展开 ， 感 兴趣 的 可 以 详细 研究 
下 ZEND_HANDLE EXCEPTION ` ZEND_CATCH 两 条 opcode 以 及 zend_exception.c 
中 具体 逻辑 。 
> 党 
4.6.3 A 46 zs Ak 


前 面 介 绍 的 异常 处 理 是 PHP 语 言 层 面 的 实现 ， 在 内 核 中 也 有 一 套 供 内 核 使 用 的 异常 
处 理 模型 ， 也 就 是 C 语 言 异 常 处 理 的 实现 ， 如 : 


static int php_start_ sapi(void) 
{ 

zend_try { 

} zend catch / 


} zend end try(); 


C 语 言 并 没有 在 语言 层面 提供 try-catch 机 制 ， 那 么 PHP 中 的 是 如 何 实现 的 呢 ? 这 个 
主要 利用 sigsetjmp()、siglongjmp() 两 个 函数 实现 堆栈 的 人 保存、 还原， 在 try 的 位 置 
通过 sigsetjmp() 将 当前 位 置 的 堆栈 保存 在 一 个 变量 中 ， 弄 常 抛 出 通过 siglongjmp() 跳 
回 原 位 置 ， 具 体 看 下 这 几 个 宏 的 定义 : 


#define zend_try 


\ 
{ 

\ 

JMP_BUF * orig bailout = EG(bailout); 
\ 

JMP_BUF ` bailout; 
\ 
\ 

EG(bailout) = & bailout; 
\ 


if (SETJMP(_bailout)==0) { 
#define zend_catch 


\ 

} else { 
\ 

EG(bailout) = _orig_bailout; 

#define zend_end_try() 
\ 

} 
\ 

EG(bailout) = _orig_bailout; 
\ 


# define JMP_BUF sigjmp_buf 

# define SETJMP(a) sigsetjmp(a, 0) 

# define LONGJMP (a,b) siglongjmp(a, b) 
# define JMP_BUF sigjmp_buf 


展开 后 : 


Z/ISSE--zend CrvigziäIMp DU: AWEN EIS 


JMP_BUF * orig bailout = EG(bailout); 
JMP_BUF _ bailout; 


// 将 当前 堆栈 保存 在 ”bailout 

EG(bailout) = & bailout; 

if (SETJMP( bailout)==0) { 
MAINE a 
// 抛 出 异常 调用 : LONGJMP() 

Jelse { // 异 常 抛 出 后 到 这 个 分 支 
EG(bailout) = _orig_bailout; 

} 

EG(bailout) = orig bailout; 
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zend 针 对 内 存 的 操作 封装 了 一 层 ， 用 于 替换 直接 的 内 存 操作 : malloc、free 等 ， 实 
现 了 更 高 效率 的 内 存 利 用 ， 其 实现 主要 参考 了 tcmalloc 的 设计 。 


源码 中 emalloc、efree、estrdup 等 等 就 是 内 存 池 的 操作 。 


内 存 池 是 内 核 中 最 底层 的 内 存 操作 ， 定 义 了 三 种 粒度 的 内 存 块 : chunk ` page ` 
slot， 每 个 chunk 的 大 小 为 2M，page 大 小 为 4KB， 一 个 chunk 被 切割 为 512 个 page ， 
而 一 个 或 若干 个 page 被 切割 为 多 个 slot， 所 以 申请 内 存 时 按照 不 同 的 申请 大 小 决定 
具体 的 分 配 策略 : 


e。Huge(chunk): 申请 内 存 大 于 2M， 直 接 调用 系统 分 配 ， 分 配 若 干 个 chunk 

e Large(page): 申请 内 存 大 于 3092B(3/4 page_size)， 小 于 2044KB(511 
page _size)， 分 配 若 干 个 page 

e Small(slot): 申请 内 存 小 于 等 于 3092B(3/4 page _ size)， 内 存 池 提前 定义 好 了 
30 种 同等 大 小 的 内 存 (8,16,24,32，...3072)， 他 们 分 配 在 不 同 的 page 上 (不 同 大 
小 的 内 存 可 能 会 分 配 在 多 个 连续 的 page)， 申 请 内 存 时 直接 在 对 应 page 上 查找 
可 用 位 置 


5.1.1 基本 数据 结构 


chunk 由 512 个 page 组 成 ， 其 中 第 一 个 page 用 于 保存 chunk 结 构 ， 剩 下 的 511 个 page 
用 于 内 存 分 配 ，page 主 要 用 于 Large、Small 两 种 内 存 的 分 配 ; heap 是 表示 内 存 池 
的 一 个 结构 ， 它 是 最 主要 的 一 个 结构 ， 用 于 管理 上 面 三 种 内 存 的 分 配 ，Zend 中 只 有 
一 个 heap 结 构 。 


struct _zend_mm_heap { 
#if ZEND_MM_STAT 


size_t size; // 当 前 已 用 内 存 数 
size_t peak; // 内 存单 次 申请 的 峰值 
#endif 
zend_mm_free_slot *free_slot[ZEND_MM_BINS]; // TABT EiT A 
链表 ，ZEND_MM_BINS 等 于 30， 即 此 数组 表示 的 是 各 种 大 小 内 存 对 应 的 链表 头 部 





zend_mm_huge_list *huge list; // 大 内 存 链 表 
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zend_mm_chunk *main_chunk; // 指 向 chunk 链 表 头 部 

zend_mm_chunk *cached_chunks; // 缓 存 的 Chunk 链 表 

int chunks_count; // 已 分 配 chunk 数 

Ant peak_chunks_count ; // 当 前 request 使 用 
chunk 峰 值 

HME cached_chunks_count; // 缓 存 的 chunk 数 

double avg_chunks_count; //chunk 使 用 均值 ， 


每 次 请 求 结束 后 会 根据 peak_chunks_count 重 新 计算 : (avg_chunks_count+peak 
 Chunks Counti/2.g 





} 
struct _zend_mm_chunk { 

zend_mm_heap *heap; // 指 向 heap 

zend_mm_chunk *next; V/A/ 指 向 下 一 个 chunk 

zend_mm_chunk *prev; // 指 向 上 一 个 chunk 

int free_pages; // 当 前 chunk 的 剩余 page 数 

ME free_tail; /* number of fre 
e pages at the end of chunk */ 

IME num; 

char reserve[64 - (sizeof(void*) * 3 + sizeof( 
int) * 3)]; 

zend_mm_heap heap_slot; //heap 结 构 ， 只 有 主 chunk 会 用 到 


Zend mm page map free map; // 标 识 各 page 是 否 已 分 配 的 bitmap 数 组 
> 总 大 小 512bit， 对 应 page 总 数 ， 每 个 page 占 一 个 bit 位 

zend_mm_page_info map[ZEND_MM_PAGES]; // 各 page 的 信息 : 当前 pag 
e 使 用 类 型 (用 于 large 分 配 还 是 small)、 占 用 的 page 数 等 
}; 


// 按 固定 大 小 切 好 的 small 内 存档 
struct _zend mm Tree slot { 
zend_mm_free slot *next_ free_slot;// 此 指针 只 有 内 存 未 分 配 时 用 到 ， 
分 配 后 整个 结构 体 转 为 char 使 用 
J; 


e O O U O 





chunk ` page ` slot 三 者 的 关系 : 
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p ext 
30 个 元 素 分 别 指向 : 
slot 8,slot 16,slot 32 =+ slot 3072 | 






free_slot[30] 












接 下 来 看 下 内 存 池 的 初始 化 以 及 三 种 内 存 分 配 的 过 程 。 


5.1.2 内 存 池 初始 化 


内 存 池 在 php_module_startup 阶 段 初 始 化 ，start memory_manager() : 
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ZEND_API void start memorv manager (void) 
{ 
#ifdef ZTS 
ts_allocate_id(&alloc_globals_id, sizeof(zend_alloc_globals) 
, (ts_allocate_ctor) alloc_globals_ctor, (ts_allocate_dtor) allo 
c_globals_dtor); 
#else 
alloc_globals_ctor(&alloc_globals); 
#endif 


} 


static void alloc_globals_ctor(zend_alloc_globals *alloc globals 


) 


{ 
#ifdef MAP_HUGETLB 


tmp = getenv("USE_ZEND_ALLOC_HUGE_PAGES"); 
if (tmp Së zend atoi(tmp, 0)) { 
zend_mm_use_huge_pages = 1; 





} 
#endif 


ZEND_TSRMLS_CACHE_UPDATE( ); 
alloc_globals->mm_heap = zend mm init(); 


alloc_globals 是 一 个 全 局 变量 ， 即 AGZ ， 它 只 有 一 个 成 员 :mm_heap， 保 存 着 整 
个 内 存 池 的 信息 ， 所 有 内 存 的 分 配 都 是 基于 这 个 值 ， 多 线程 模式 下 (ZTS) 会 有 多 个 
heap， 也 就 是 说 每 个 线程 都 有 一 个 独立 的 内 存 池 ， 看 下 它 的 初始 化 : 


static zend mm heap *zend_mm_init(void) 
{ 

// 向 系统 申请 2M 大 小 的 chunk 

zend_mm_chunk *chunk = (zend_mm_chunk*)zend_mm_chunk_alloc_i 
nt(ZEND_MM_CHUNK_SIZE， ZEND MM CHUNK_SIZE); 

zend_mm_heap *heap; 


heap = &chunk->heap_slot; //heap 结 构 实 际 是 主 chunk 远 入 的 一 个 结构 ， 
后 面 再 分 配 chunk 的 heap_Ss1ot 不 再 使 用 

chunk->heap = heap; 

chunk->next = chunk; 

chunk->prev = chunk; 

chunk->free_pages = ZEND_MM_PAGES - ZEND_MM_FIRST_PAGE; Ji 
余 可 用 page 数 

chunk->free_ tail = ZEND MM_FIRST_PAGE; 

chunk->num = 0; 

chunk->free map[0] = (Z_L(1) ZEND MM FIRST_ PAGE) - 1; // 
将 第 一 个 page 的 bit 分 配 标 识 位 设置 为 1 

chunk->map[9] = ZEND_MM_LRUN(ZEND_MM_FIRST_PAGE); // 第 一 个 pag 
e 的 类 型 为 ZEND_MM_IS_LRUN， 即 large 内 存 

heap->main_chunk = chunk; // 指 向 主 chunk 

heap->cached_chunks = NULL，// 缓 存 chunk 链 表 

heap->chunks_count = 1; // 已 分 配 chunk 数 

heap ->peak_chunks_count = 1; 

heap->cached_chunks_count = 0; 

heap->avg_chunks_count = 1.0; 


heap->huge_list = NULL; //huge 内 存 链表 
return heap; 


这 里 分 配 了 主 chunk， 只 有 第 一 个 chunk 的 heap 会 用 到 ， 后 面 分 配 的 chunk 不 再 用 到 
heap， 初 始 化 完 的 结构 如 下 图 : 
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zend_mm_chunk 


zend_mm_heap 







alloc_globals 
size_t peak 0 


zend_alloc_globals 
zend_mm_free_slot 


*free_slot[30] 
zend_mm_heap Yr 
*mm_heap 4 size_t real_size 4096 
/ size_t real_peak 4096 
size_t limit 
int overflow 


zend_mm_huge_list 
*huge_list 


zend_mm_page_map | |^ 
free_map Ve Kee Zend mm chunk 


"main chunk 


zend mm page Info N 
map[512] {0x40000001, 0, …} zend_mm_chunk SP 


*cached_chunks 


int chunks_count 1 


peak_chunks_count 


page 512 


cached_chunks_count 


double wé 


avg_chunks_count 


~ = 


初始 化 的 过 程 实际 只 是 分 配 了 一 个 主 chunk， 这 里 并 没有 看 到 开始 提 到 的 小 内 存 slot 
切割 ， 下 一 节 我 们 来 详细 看 下 各 种 内 存 的 分 配 过 程 。 


5.1.3 AET Æ 


文章 开头 已 经 简单 提 过 Zend 内 存 分 配器 按照 申请 内 存 的 大 小 有 三 种 不 同 的 实现 : 
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emalloc(size) 
zend_mm_alloc_heap!() 




















ize <= 511*page_ Size 
chunk 是 否 够 分 





Y 


分 配 若 于 (小 于 511)page 





zend_mm_alloc_hugel) 
5.1.3.1 Huge 分 配 


超过 2M 内 存 的 申请 ， 与 通用 的 内 存 申请 没有 太 大 差别 ， 只 是 将 申请 的 内 存 块 通过 音 
链表 进行 了 管理 。 
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static void “zend mm alloc huge(zend mm heap *heap, size_t size 


ZENDSETĽE I TNEADC ZENDOETIE DINE ORIG DC) 
{ 








size_t new_ SEH = ZEND_MM_ALIGNED_SIZE_EX(size, REAL PAGE_ St 


ZE); // 按 页 大 小 重 置 实际 要 分 配 的 内 存 


#if ZEND_MM_LIMIT 


// 如 果 有 内 存 使 用 限制 则 check 是 否 已 达 上 限 ， 达 到 的 话 进行 Zend_mm_gc 清 理 后 


再 检查 
// 此 过 程 不 再 展开 分 析 
#endif 


// 分 配 chunk 


ptr = zend mm_chunk_alloc(heap, new size, ZEND MM CHUNK_SIZE 


); 
if (UNEXPECTED(ptr == NULL)) { 
// 清 理 后 再 尝试 分 配 一 次 
if (zend mm gc(heap) Së 


(ptr = zend mm chunk_alloc(heap, new size, ZEND MM_C 


HUNK_SIZE)) != NULL) { 
/* pass */ 
} else { 
// 申 请 失败 
zend_mm_safe error(heap, "Out of memory"); 
return NULL; 


尾 申 请 的 内 存 通过 zend_mm_huge_1ist 播 入 到 链表 中 ,heap->huge_1ist 指 


zend_mm_add_huge_block(heap, ptr, new_size, ...); 





return ptr; 


huge 的 分 配 实际 就 是 分 配 多 个 chunk，chunk 的 分 配 也 是 large、small 内 存 分 配 的 基 
础 ， 它 是 ZendMM 向 系统 申请 内 存 的 唯一 粒度 。 在 申请 chunk 内 存 时 有 一 个 关键 操 


作 ， 那 就 是 将 内 存 地 址 对 齐 到 ZEND_MM_CHUNK_SIZE， 也 就 是 说 申请 


青 的 Chunk 


地 址 都 是 ZEND_MM_CHUNK_SIZE 的 整数 倍 ， 注 意 : 这 里 说 的 内 存 对 齐 值 并 不 是 
系统 的 字 节 对 齐 值 ， 所 以 需要 在 申请 后 自己 调整 下 。ZendMM 的 处 理 方法 是 : 先 按 
实际 要 申请 的 内 存 大 小 申请 一 次 ， 如 果 系 统 分 配 的 地 址 恰好 是 
ZEND_MM_CHUNK_SIZE 的 整数 倍 那么 就 不 需要 调整 了 ， 直 接 返回 使 用 ; 如 果 不 
ZZEND MM CHUNK _SIZE 的 整数 倍 ，ZendMM 会 把 这 块 内存 释 放 掉 ， 然 后 按 
照 "实际 要 申请 的 内 存 大 小 +ZEND_MM_CHUNK_SIZE" 的 大 小 重新 申请 一 块 内 存 ， 
多 申请 的 ZEND_MM_CHUNK_SIZE 大 小 的 内 存 是 用 来 调整 的 ，ZendMM 会 从 系统 
分 配 的 地 址 向 后 偏 移 到 ZEND_MM_CHUNK_SIZE 的 整数 倍 位 置 ， 调 整 完 以 后 会 把 
多 余 的 内 存 再 释放 掉 ， 如 下 图 所 示 , 虚 线 部 分 为 alignment 大 小 的 内 容 ， 灰 色 部 分 为 
申请 的 内 容 大 小 ， 系 统 返 回 的 地 址 为 ptr1， 而 实际 使 用 的 内 存 是 从 ptr2 开 始 的 。 


ptr1 ptr2 


alignment 


下 面 看 下 chunk 的 具体 分 配 过 程 : 
/VSize 为 申请 内 存 的 大 小 ，alLignment 为 内 存 对 齐 值 ， 一 般 为 ZEND_MM_CHUNK_SIZE 


static void *zend_mm_chunk_alloc_int(size_t size, size_t alignme 
ME) 
{ 
// 向 系统 申请 Size 大 小 的 内 存 
void *ptr = zend mm mmap(size); 
if (ptr == NULL) { 
return NEE 
} else if (ZEND MM ALIGNED OFFSET(ptr, alignment) == 0) {// 
判断 申请 的 内 存 是 否 为 alignment 的 整数 倍 
// 是 的 话 直接 返回 
return ptr; 
}else{ 
// 申 请 的 内 存 不 是 按照 alignment 对 齐 的 ， 注 意 这 里 的 alignment 并 不 是 
系统 的 字 节 对 齐 值 


size_t offset; 


// 将 申请 的 内 存 释 放 掉 重 新 申请 


zend_mm_munmap(ptr, size); 
// 重 新 申请 一 块 内 存 ， 这 里 会 多 申请 一 块 内 存 ， 用 于 截取 到 alignment 的 整 
数位 ， 可 以 忽略 REAL_PAGE_SIZE 
ptr = zend mm mmap(size + alignment - REAL_PAGE_SIZE); 
//offset 为 ptr 距 离 上 一 个 alignment 对 齐 内 存 位 置 的 大 小 ， 注 意 不 能 往 
前 移 ， 因 为 前 面 的 内 存 都 是 分 配 了 的 
offset = ZEND_MM ALIGNED OFFSET(ptr, alignment); 
if (offset != 0) { 
offset = alignment - offset; 
zend_mm_munmap(ptr, offset); 
// 偏 移 ptr， 对 齐 到 alignment 
ptr = (char*)ptr + offset; 
alignment -= offset; 
} 
if (alignment > REAL PAGE SIZE) { 
zend_ mm munmap((char*)ptr + size, alignment - REAL P 
AGE_SIZE); 
} 


netumne be 





这 个 过 程 中 用 到 了 一 个 宏 : 


#define ZEND MN ALIGNED OFFSET(size, alignment) \ 
(((size t)(size)) & ((alignment) - 1)) 


这 个 宏 的 作用 是 计算 按 alignment 对 齐 的 内 存 地 址 距离 上 一 个 alignment 整 数 倍 内 存 
地 址 的 大 小 ，alignment 必 须 为 2 的 n 次 方 ， 比 如 一 段 n*alignment 大 小 的 内 存 ，ptr 为 
其 中 一 个 位 置 ， 那 么 就 可 以 通过 位 运算 计算 得 到 ptr 所 属 内 存 块 的 offset : 


ptr 


0 alignment 2*alignment {n-1)*alignment 





offset = ptr & (aligent -1) 


这 个 位 运 莫 是 因为 alignment 为 2n， 所 以 可 以 通过 alignment 取 到 最 低位 的 位 置 ， 也 
就 是 相对 上 一 个 整数 们 alignment 的 offset， 实 际 如 果 不 用 运算 的 话 可 以 通 

过 : offset = (ptr/alignment 取 整 )*alignment - ptr 得 到 ， 这 个 更 容 多 理解 
此 。 


(ax 


5.1.3.2 Large 分 配 


大 于 3/4 的 pagesize(4KB) 且 小 于 等 于 511 个 pagesize 的 内 存 申 请 ， 也 就 是 一 个 chunk 
的 大 小 够 用 (之 所 以 是 511 个 page 而 不 是 512 个 是 因为 第 一 个 page 始 终 被 chunk 结 构 
占用 )， ”如果 申请 多 个 page 的 话 分 配 的 时 候 这 些 page 都 是 连续 的 。 


static zend always_inline void *zend mm alloc large(zend_mm_heap 
*heap, size_t size ZEND FILE LINE DC ZEND FILE LINE ORIG DC) 
{ 








F we O Ia A 
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// 根 据 size 大 小 计算 需要 分 配 多 少 个 page 
int pages count = (int)ZEND MM SIZE_ TO_NUM(size, ZEND_MM_PAG 


E_SIZE); 





// 分 配 pages_count 个 page 


void *ptr = zend mm alloc pages(heap, pages_count, ...); 


return ptr; 


进一步 看 下 zend mm alloc pages ， 这 个 过 程 比 较 复 杂 ， 简 单 描述 的 话 就 是 从 第 
一 个 chunk 开 始 查找 当前 chunk 下 是 否 有 pagescount 个 连续 可 用 的 page， 有 的 话 就 
停止 查找 ， 没 有 的 话 则 接着 查找 下 一 个 chunk， 如 果 直 到 最 后 一 个 chunk 也 没 找到 则 
重新 分 配 一 个 新 的 chunk 并 插入 chunk 链 表 ， 这 个 过 程 中 最 不 好 理解 的 一 点 在 于 如 何 
查找 pagescount 个 连续 可 用 的 page， 这 个 主要 根据 chunk->free_map 实现 的 ， 在 
看 具体 执行 过 程 之 前 我 们 先 解 释 下 free map 的 作用 : 


我 们 已 经 知道 每 个 chunk 由 512 个 page 组 成 ， 而 不 管 是 large 分 配 还 是 small 分 配 ， 
其 分 配 的 最 小 粒子 都 是 page(small 也 是 先 分 配 1 个 或 多 个 page 然 后 再 进行 的 切 

割 )， 所 以 需要 有 一 个 数组 来 记录 每 个 page 是 否 已 经 分 配 ，free_map 的 作用 就 是 标 
识 当 前 chunk 下 各 page 的 分 配 与 否 ， 比 较 特 别 的 是 free_map 并 不 是 512 大 小 的 数 
组 ， 因 为 需要 记录 的 信息 非常 简单 ， 只 需要 一 个 bit 位 就 够 了 ， 所 以 free_map 就 


用 长 整形 的 各 bit 位 来 记录 的 (实际 就 是 bitmap) ， 不 同位 数 的 机 器 长 整形 大 小 不 
同 ， 因 此 在 32、64 位 下 16 或 8 个 长 整形 就 够 512bit 了 (每 个 byte 等 于 8bit， 长 整形 为 
4byte 或 8byte) ， 当 然 这 么 做 并 仅仅 是 节省 空间 ， 更 重要 的 作用 是 可 以 提高 查询 效 


typedef zend_ulong zend mm _ bitset,; /* 4-byte or 8-byte intege 
#define ZEND MM BITSET_LEN (sizeof(zend mm bitset) * 8) 


#define ZEND MM _ PAGE MAP_LEN (ZEND_MM_ PAGES / ZEND MM BITSET_ 
LEN) /* 16 or 8 */ 








typedef zend_ mm _bitset zend mm page map[ZEND MN PAGE MAP_LEN]; 


BRAR *7y 
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heap->free_map 实际 就 是 : zend_ulong free_ map[16 or 8] > 3 free_map[8] 
为 例 ， 数 组 中 的 8 个 数字 分 别 表 示 : 0-63、64-127、128-191、192-255、256- 
319 ` 320-383 ` 384-447 ` 448-511 page 的 分 配 与 否 ， 比 如 当前 chunk 的 page 0 ` 
page 2 已 经 分 配 ， 则 : free_map[0] = 5 : 


715: 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 0 
0000101 
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己 分 配 


已 分 配 


page 63 


page 127 
page 128 
page 191 
page 511 


chunk 





free_ map[8] 





接 下 来 看 下 zend_mm_alloc_pages 的 操作 : 


static void *zend mm alloc pages(zend mm heap *heap, int Dages CG 
OUnt ZEND EILE LINE DC ZEND FILE LINE ORIG DC) 
{ 








zend_mm_chunk *chunk = heap->main_chunk; 
int page_num, len; 


// 从 第 一 个 chunk 开 始 查找 可 用 page 
while (1) { 
// 当 前 chunk 剩 余 page 总 数 已 不 够 
if (UNEXPECTED(chunk->free Dages < pages count)) { 
goto not_found; 
}elsef{ // 查 找 当前 chunk 是 否 有 pages_count 个 连续 可 用 的 page 
int best = -1; // 已 找到 可 用 page 起 始 页 
int best_len = ZEND_MM_PAGES; // 已 找到 chunk 的 page 间 陈 
大 小 ， 这 个 值 尽 可 能 接近 page_count 
int free_tail = chunk->free Cal: 
zend_mm_bitset *bitset = chunk->free_map; 
zend_mm_bitset tmp = *(bitset++); // zend_mm_bitset 
tmp = *bitset; bitset++ 这 里 是 复制 出 的 ， 不 会 影响 free_map 
int i = 0; 


// 下 面 就 是 查找 最 优 page 的 过 程 , 稍 后 详细 分 析 
//find best page 
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not found: 

if (chunk->next == heap->main_chunk) { // 是 否 已 到 最 后 一 个 ch 
unk 
get_chunk: 


}else{ 
chunk = chunk->next; 


found: // 找 到 可 用 page，page 编 号 为 page_num 至 (page_num + pages_count) 
/* mark run as allocated "4 
chunk->free_pages -= pages_count; 
zend_mm_bitset_set_range(chunk->free_map, page_num, pages_co 


Jah a 


unt); // 将 page_num 至 (page_num + pages_count)page 的 bit 标 识 位 设置 为 已 


chunk->map[page_num] = ZEND_MM_LRUN(pages_count); //map 为 两 个 
值 的 组 合 值 ， 首 先 表示 当前 page 属 于 哪 种 类 型 ， 其 次 表示 包含 的 page 页 数 
if (page num == chunk->free_tail) { 
chunk->free_tail = page num + pages_count; 
} 
return ZEND_MM_PAGE_ADDR(chunk, page_num); 
} 


查找 过 程 就 是 从 第 一 个 chunk 开 始 搜索 ， 如 果 当 前 chunk 没 有 合适 的 则 进入 下 一 
chunk， 如 果 直 到 最 后 都 没有 找到 则 新 创建 一 个 chunk。 


注意 : 查找 page 的 过 程 并 不 仅仅 是 够 数 即 可 ， 这 里 有 一 个 标准 是 : 申请 的 一 个 或 多 
Papago “chun 空隙 ， Eeer 前 chunk 有 多 块 内 存 满足 
需求 则 会 选择 最 合适 的 那 块 ， 而 合适 的 标准 前 面 提 到 的 那个 。 


最 优 page 的 检索 过 程 


e Step1: 首先 从 第 一 个 page 分 组 (page 0-63) 开 始 检 查 ， 如 果 当 前 分 组 无 可 用 
page( 即 free_map[x] = -1) 则 进入 下 一 分 组 ， 直 到 当前 分 组 有 空间 page， 然 后 
进入 step2 

e step2: 当前 分 组 有 可 用 page， 首 先 找到 第 一 个 可 用 page 的 位 置 ， 记 作 
pagemumm， 接 着 从 page_mum 开 始 向 下 找 第 一 个 已 分 配 page 的 位 置 ， 记 作 


endpagenum， 这 个 地 方 需要 注意 ， 如 果 当 前 分 组 剩 下 的 page 都 是 可 用 的 则 
会 进入 下 一 分 组 接着 搜索 ， 直 到 找到 为 止 ， 这 里 还 会 借助 chunk->free_tail 避 免 
无 谓 的 查找 到 最 后 分 组 
e step3: 根据 上 一 步 找到 的 page_num、end page_num 可 计算 得 到 当前 可 用 内 
存 块 大 小 为 len 个 page， 然 后 与 申请 的 page 页 数 (page_count) 比 较 
o Step3.1: 如 果 Ilen=page_count 则 表示 找到 的 内 存 块 符合 申请 条 件 且 非常 完 
美 ， 直 接 从 page_num 开 始 分 配 page_count 个 page 
o step3.2: 如 果 Ilen>page_count 则 表示 找到 的 内 存 块 符合 条 件 且 空 间 很 充 
裕 ， 暂 且 记 录 下 len、page_num， 然 后 继续 向 下 搜索 ， 如 果 有 更 合适 的 则 
用 更 合适 的 替代 
o step3.3: 如 果 Ilen<page_count 则 表示 当前 内 存 块 不 够 申请 的 大 小 ， 不 符合 
条 件 ， 然 后 将 这 块 空间 的 全 部 page 设 置 为 已 分 配 (这 样 下 一 轮 检索 就 不 会 
再 次 找到 它 了 )， 接 着 从 step1 重 新 检索 


下 面 从 一 个 例子 具体 看 下 ， 以 64bit 整 形 为 例 ， 假 如 当前 page 分 配 情况 如 下 图 -(1) 
(group1 全 部 已 分 配 ;group2 中 page 67-68、71-74 未 分 配 ， 其 余 都 已 分 配 ;group3 中 
除 page 128-129、133 已 分 配 外 其 余 都 未 分 配 )， 现 在 要 申请 3 个 page : 
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free_mapf[8] 


gro 


page_num 


best = 71 
best len=4 


end Gage num 


up? 
K 
D 
S 
2 


free_map[8] 





检索 过 程 : 


e 83. 首先 会 直接 跳 过 group1， 直 接 到 group2 检 索 

e b. 在 group2 中 找到 第 一 个 可 用 page 位 置 : 67， 然 后 向 下 找 第 一 个 不 可 用 page 
位 置 : 69， 找 到 的 可 用 内 存 块 长 度 为 2， 小 于 3， 表 示 此 内 存 块 不 可 用 ， 这 时 会 
将 page 67-68 标 识 为 已 分 配 ， 图 -(2) 

e C. 接 着 再 次 在 group2 中 查找 到 第 一 个 可 用 page 位 置 : 71, 然 后 向 下 找到 第 一 个 
不 可 用 page 位 置 : 75, 内 存 块 长 度 为 4， 大 于 3， 表 示 找 到 一 个 符合 的 位 置 ， 虽 
然 已 经 找到 可 用 内 存 块 但 并 不 "完美 "， 先 将 这 个 并 不 完美 的 page_num 及 len 保 
存 到 best、best len， 如 果 后 面 没有 比 它 更 完美 的 就 用 它 了 ， 然 后 将 page 71- 
74 标 示 为 已 分 配 ， 图 -(3) 

ed. 再 次 检索 ， 发 现 group2 已 无 可 用 page， 进 入 group3， 找 到 可 用 内 存 位 置 : 
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page 130-132， 大 小 比 c 中 找到 的 合适 ， 所 以 最 终 返回 的 page 就 是 130-132 > 
图 -(4) 


page 分 配 完成 后 会 将 free_map 对 应 整数 的 bit 位 从 page_num 至 
(page_num+page_count) 置 为 1， 同时 将 chunk->map[page_num] 置 

为 ZEND_MM_LRUN(pages_count) ， 表 示 page_num 至 (page_num+page count) 这 
些 page 是 被 Large 分 配 占 用 的 。 


5.1.3.3 Small 分 配 


small 内 存 指 的 是 小 于 (3/4 page_size) 的 内 存 ， 这 些 内 存 首先 也 是 申请 了 1 个 或 多 个 
page， 然 后 再 将 这 些 page 按 国定 大 小 切割 了 ， 所 以 第 一 步 与 上 一 节 Large 分 配 完全 
相同 。 


small 内 存 总 共有 30 种 国定 大 小 的 规格 : 8,16,24,32,40,48,56,64,80,96,112,128 .… 
1792,2048,2560,3072 Byte， 我 们 把 这 称 之 为 slot， 这 些 slot 的 大 小 是 有 规律 的 :最 小 
的 slot 大 小 为 8byte， 前 8 个 slot 依 次 递增 8byte， 后 面 每 隔 4 个 递增 值 乘 以 2， 

Pn slot 0-7 递 增 8byte、8-11 递 增 16byte、12-15 递 增 32byte、16-19 递 增 32byte、 
290-23 递 增 128byte、24-27 递 增 256byte、28-29 递 增 512byte ， 每 种 大 小 的 slot 占 用 
的 page 数 分 别 是 : slot 0-15 各 占 1 个 page、slot 16-29 依 次 占 5, 3, 1, 1, 5, 3, 2, 2, 5, 
3, 7, 4, 5, 3 个 page， 这 些 值 定 义 在 zend_alloc_sizes.h 中 : 


ZP num, Size, COount, Dages "4 
#define ZEND MM BINS INFO( , x, y) \ 


io 8, 512, 1, x, y) \、// 四 个 值 的 含义 依次 是 : slot 编 号 、slo 
t 大 小 、slot 数 量 、 占 用 page 数 
D(a, a E Ee XY 
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small 内 存 的 分 配 过 


e Step1: 首先 根据 申请 内 存 的 大 小 在 heap->free_slot 中 找到 对 应 的 slot 规 格 
bin_num， 如 果 当 前 slot 为 空 则 首先 分 配对 应 的 page， 然 后 将 这 些 page 内 存 按 
slot 大 小 切割 为 zend_mm_free_slot 单 向 链表 ，free_slot[bin_num] 始 终 指向 第 
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一 个 可 用 的 slot 

e step2: 如 果 申 请 内 存 大 小 对 应 的 的 Slot 链表 不 为 空 则 直接 返回 
free_slot[bin_num]， 然 后 将 free_slot[bin_num] 指 向 下 一 个 空闲 位 
free_slot[bin_num]->next_free_slot 

e Step3: 释放 内 存 时 先 将 此 内 存 的 next free _ slot 指向 free_slot[bin_num]， 然 后 
将 free_slot[bin_num] 指 向 释放 的 内 存 ， 也 就 是 将 释放 的 内 存 插 到 链表 头 部 


free_slot[30] 









page XXX 


page XXX 





5.1.4 系统 内 存 分 配 


面 介 绍 了 三 种 内 存 分 配 的 过 程 ， 内 存 池 实 际 只 是 在 系统 内 存 上 面 做 了 一 些 工作 ， 
可 能 减少 系统 内 存 的 分 配 次 数 ， 接 下 来 简单 看 下 系统 内 存 的 分 配 。 


chunk、page、slot 三 种 内 存 粒 度 中 chunk 的 分 配 是 直接 向 系统 申请 的 ， 这 里 调用 的 
并 不 是 malloc (这 只 是 glibc 实 现 的 内 存 操作 ， 并 不 是 操作 系统 的 ，zend 的 内 存 池 实 
际 跟 malloc 的 角色 相同 ) ， 而 是 mmap : 
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static void *zend_mm_mmap(size_t size) 


í 


//hugepage 3 23 
#ifdef MAP_HUGETLB 
if (zend_mm_use_huge_pages Së size == ZEND_MM_CHUNK_SIZE 





){ 
ptr = mmap(NULL, size, PROT_READ | PROT_WRITE, MAP_P 


RIVATE | MAP_ANON | MAP_HUGETLB, -1, 0); 
if (ptr != MAP_FAILED) { 
return ptr; 


#endif 


ptr = mmap(NULL, size, PROT_READ | PROT_WRITE, MAP_PRIVATE | 
MAP_ANON， -1, 0); 


if (ptr == MAP_FAILED) { 
#if ZEND_MM_ERROR 
fprintf(stderr, "\nmmap() failed: [%d] %s\n", errno, str 
error (errno)); 
#endif 
return NULL; 


} 


return ptr; 


HugePage 的 支持 就 是 在 这 个 地 方 提现 的 ， 详 细 的 可 以 看 下 鸟 哥 的 这 篇 文 
章 ` http://www.laruence.com/2015/10/02/3069.html。 


『 关 于 Hugepage 是 哈 ， 简 单 的 说 下 就 是 默认 的 内 存 是 以 4KB 分 页 的 ， 而 虚拟 地 址 
和 内 存 地 址 是 需要 转换 的 ， 而 这 个 转换 是 要 查 表 的 ，CPU 为 了 加 速 这 个 查 表 过 程 都 
会 内 建 TLB (Translation Lookaside Buffer) ， 显 而 易 见 如 果 虚 拟 页 越 小 ， 表 里 的 
条 目 数 也 就 越 多 ， 而 TLB 大 小 是 有 限 的 ， 条 目 数 越 多 TLB 的 Cache Miss 也 就 会 越 
高 ， 所 以 如 果 我 们 能 启用 大 内 存 页 就 能 间接 降低 这 个 TLB Cache Missi 


5.1.5 内 存 释 放 


内 存 的 释放 主要 是 efree 操 作 ， 与 三 种 分 配 一 一 对 应 ， 过 程 也 比较 简单 : 











#define efree(ptr) _efree((ptr) ZEND_FI 
LE LINE CC ZEND FILE LINE EMPTY_CC) 

#define efree_large(ptr) _efree_large((ptr) Z 
END_FILE_LINE_CC ZEND_FILE_LINE_EMPTY_CC) 

#define efree_huge(ptr) _efree_huge((ptr) ZE 


ND_FILE_LINE_CC ZEND_FILE_LINE_EMPTY_CC) 








ZEND_API void ZEND_FASTCALL _efree(void *ptr ZEND_FILE_LINE_DC Z 
END_FILE_LINE_ORIG_DC) 


í 








zend_mm_free_heap(AG(mm_heap), ptr ZEND_FILE_LINE_RELAY_CC Z 
END EILE LINE ORIG RELAY_CC); 


} 








static zend always_inline void zend_mm_free_heap(zend_mm_heap *h 
eap, Void ‘ptr ZEND FILE LINE DC ZEND ELLE LINE ORIG DC) 


{ 








// 根 据 内 存 地 址 及 对 齐 值 判断 内 存 地 址 偏 移 量 是 否 为 0， 是 的 话 只 有 huge 情 况 符合 
， page、S1Lot 分 配 出 的 内 存 地 > 址 偏 移 量 一 定 是 >=ZEND_MM_CHUNK_SIZE 的 ， 因 为 第 
一 页 始终 被 chunk 自 身 结构 占用 ， 不 可 能 分 配 出 去 

//offset 就 是 ptr 距 离 当 前 chunk 起 始 位 置 的 偏 移 量 

size_t page offset = ZEND MM ALIGNED OFFSET(ptr, ZEND MM_CHU 
NK_SIZE); 


if (UNEXPECTED(page offset == 0)) { 
if (ptr != NULL) { 
// 释 放 huge 内 存 ， 从 huge_1ist 中 删除 
zend_mm_free_huge(heap, ptr ZEND_FILE_LINE_RELAY_CC 
ZEND_FILE_LINE_ORIG_RELAY_CC); 
} 
} else { //page 或 slot， 根 据 chunk->map[] 值 判断 当前 page 的 分 配 类 型 
// 根 据 ptr 获 取 chunk 的 起 始 位 置 
zend_mm_chunk *chunk = (zend_mm_chunk* )ZEND_MM_ALIGNED_B 
ASE(ptr, ZEND_MM_CHUNK_SIZE); 
int page_num = (int)(page_offset / ZEND_MM_PAGE_SIZE); 
zend_mm_page_info info = chunk->map[page_num]; 








ZEND_MM_CHECK(chunk->heap == heap, "zend mm_ heap corrupt 
ed"); 
if (EXPECTED(info & ZEND_MM_IS_SRUN)) { 
zend_mm_free_small(heap, ptr, ZEND_MM_SRUN_BIN_NUM(i 
nfo)); //slot 的 释放 上 一 节 已 经 介绍 过 ， 就 是 个 普通 的 链表 插入 操作 
} else /* if (info & ZEND MM _ IS LRUN) */ { 
int Dages count = ZEND_MM_LRUN_PAGES(info); 





ZEND_MM CHECK(ZEND_ MN ALIGNED OFFSET(page_ offset, ZE 
ND MM PAGE_ SIZE) == ©, "zend_ mm heap corrupted"); 
// 释 放 page， 将 free_map 中 的 标识 位 设置 为 未 分 配 


zend_mm_free_large(heap, chunk, page_num, pages_coun 
t); 


释放 的 内 存 地 址 可 能 是 chunk 中 间 的 任意 位 置 ， 因 为 chunk 分 配 时 是 按照 
ZEND MM CHUNK _SIZE 对 齐 的 ， 也 就 是 chunk 的 起 始 内 存 地 址 一 定 是 
ZEND_MM_CHUNK_SIZE 的 整数 倍 ， 所 以 可 以 根据 chunk 上 的 任意 位 置 
的 起 始 位 置 。 


知道 chunk 


释放 page 的 过 程 有 一 个 地 方 值得 注意 ， 如 果 释 放 后 发 现 当 前 chunk 所 有 page 都 已 经 
被 释放 则 可 能 会 释放 所 在 chunk， 还 记得 heap->cached_chunks 吗 ? 内存 池 会 维持 

一 定 的 chunk 数 ， 每 次 释放 并 不 会 直接 销毁 而 是 加 入 到 cached_chunks 中 ， 这 样 下 

次 申请 chunk 时 直接 就 用 了 ， 同 时 为 了 防止 占用 过 多 内 存 ，cached_chunks 会 根据 

每 次 request 请 求 计算 的 chunk 使 用 均值 保证 其 维持 在 一 定 范围 内 。 


每 次 request 请 求 结 束 会 对 内 存 池 进 行 一 次 清理 ， 检 查 cache 的 chunk 数 是 否 超过 均 
值 ， 超 过 的 话 就 进行 清理 ， 具 体 的 操作 : zend_mm_shutdown ， 这 里 不 再 展开 。 


5.2 垃圾 回收 


5.2.1 垃圾 的 产生 


前 面 已 经 介绍 过 PHP 变 量 的 内 存 管 理 ， 即 引用 计数 机 制 ， 当 变量 赋值 、 传 递 时 并 不 
会 直接 硬 找 贝 ， 而 是 增加 value 的 引用 数 ，unset、return 等 释放 变量 时 再 减 掉 引 用 
数 ， 减 掉 后 如 果 发 现 refcount 变 为 0 则 直接 释放 value， 这 是 变量 的 基本 gc 过 程 ， 
PHP 正 是 通过 这 个 机 制 实现 的 自动 垃圾 回收 ， 但 是 有 一 种 情况 是 这 个 机 制 无 法 解决 
的 ， 从 而 因 变 量 无 法 回收 导致 内 存 始终 得 不 到 释放 ， 这 种 情况 就 是 循环 引用 ， 简 单 
的 描述 就 是 变量 的 内 部 成 员 引 用 了 变量 自身 ， 比 如 数组 中 的 某 个 元 素 指 向 了 数组 ， 
这 样 数组 的 引用 计数 中 就 有 一 个 来 自 自 身 成 员 ， 试 图 释放 数组 时 因为 其 refcount 仍 
然 大 于 0 而 得 不 到 释放 ， 而 实际 上 已 经 没有 任何 外 部 引用 了 ， 这 种 变量 不 可 能 再 被 
使 用 ， 所 以 PHP 引 入 了 另外 一 个 机 制 用 来 处 理 变量 循环 引用 的 问题 。 


下 面 看 一 个 数组 循环 引用 的 例子 : 


$a = [1]; 
$a[] = &$a; 


unset($a); 


unset ($a) 之 前 引用 关系 : 








zend_reference 


gc.refcount=2 
val.value.arr 











zend_array 


a 





注意 这 里 $a 的 类 型 在 & 操作 后 已 经 转 为 引用 ， unset($a) 之 后 : 


var stack zend_reference 


zend_array D 


gc.refcount=1 


val.value.arr 





可 以 看 到 ， unset($a) 之 后 由 于 数组 中 有 子 元 素 指 向 $a ， 所 以 refcount = 
1 ， 此 时 是 无 法 通过 正常 的 gc 机 制 回收 的 ， 但 是 $a 已 经 已 经 没有 任何 外 部 引用 了 ， 
所 以 这 种 变量 就 是 垃圾 ， 垃 圾 回收 器 要 处 理 的 就 是 这 种 情况 ， 这 里 明确 两 个 准则 : 


1) 如 果 一 个 变量 value 的 refcount 减 少 到 0， 那 么 此 value 可 以 被 释放 掉 ， 不 
属于 垃圾 


2) 如 果 一 个 变量 value 的 refcount 减 少 之 后 大 于 0， 那 么 此 zval 还 不 能 被 释 
放 ， 此 ZVval 可 能 成 为 一 个 垃圾 


针对 第 一 个 情况 GC 不 会 处 理 ， 只 有 第 二 种 情况 GC 才 会 将 变量 收集 起 来 。 另 外 变量 
是 否 加 入 垃圾 检查 buffer 并 不 是 根据 Zzval 的 类 型 判断 的 ， 而 是 与 前 面 介绍 的 是 否 用 到 
引用 计数 一 样 通过 zval.u1.type_flag 记录 的 ， 只 有 包 

& IS_TYPE_COLLECTABLE 的 变量 才 会 被 GC 收集 。 


RI 


目前 垃圾 只 会 出 现在 array、object 两 种 类 型 中 ， 数 组 的 情况 上 面 已 经 介绍 了 
object 的 情况 则 是 成 员 属 性 引用 对 象 本 身 导 致 的 ， 其 它 类 型 不 会 出 现 这 种 变量 中 的 
成 员 引 用 变量 自身 的 情况 ， 所 以 垃圾 回收 只 会 处 理 这 两 种 类 型 的 变量 。 


#define IS_TYPE_COLLECTABLE 


|simple types | 
|string | 
|interned string | 
|array | 
|immutable array | 
|object | 
| resource | 
|reference | 


5.2.2 回收 过 程 
如 果 当 变量 的 refcount 减 少 后 大 于 0，PHP 并 不 会 立即 进行 对 这 个 变量 进行 垃圾 鉴 
定 ， 而 是 放 入 一 个 缓冲 buffer 中 ， 等 这 个 buffer 满 了 以 后 (10000 个 值 ) 再 统一 进行 处 


理 ， 加 入 buffer 的 是 变量 zend_value 的 zend retcounted bh: 


typedef struct _zend_refcounted_h { 


DEED refcount，// 记 录 zend_value 的 引用 数 
union { 
Struct q 
zend_uchar type, //zend_value š% , Dzval ut. Cvp 
ec 
zend_uchar flags, 
uintIp oC Info //GC 信 息 ， 垃 圾 回收 的 过 程 会 用 到 
} v; 
uint32_t type_info; 
Lu 


} zend rercounted bh: 


一 个 变量 只 能 加 入 一 次 buffer， 为 了 防止 重复 加 入 ， 变 量 加 入 后 会 

把 zend_refcounted_h.gc_info Æ X GC_PURPLE ， 即 标 为 紫色 ， 下 次 refcount 
减少 时 如 果 发 现 已 经 加 入 过 了 则 不 再 重复 插入 。 垃 圾 缓存 区 是 一 个 双向 链表 ， 等 到 
缓存 区 满 了 以 后 则 启动 垃圾 检查 过 程 : 遍历 缓存 区 ， 再 对 当前 变量 的 所 有 成 员 进行 
遍历 ， 然 后 把 成 员 的 refcount 减 1( 如 果 成 员 还 包含 子 成 员 则 也 进行 递归 遍历 ， 其 实 
就 是 深度 优先 的 遍历 )， 最 后 再 检查 当前 变量 的 引用 ， 如 果 减 为 了 0 则 为 垃圾 。 这 个 


算法 的 原理 很 简单 ， 垃 圾 是 由 于 成 员 引 用 自身 导致 的 ， 那 么 就 对 所 有 的 成 员 减 一 遍 
引用 ， 结 果 如 果 发 现 变 量 本 身 refcount 变 为 了 0 则 就 表明 其 引用 全 部 来 自 自身 成 员 。 
具体 的 过 程 如 下 


(1) 从 buffer 链 表 的 roots 开 始 遍历 ， 把 当前 value 标 为 灰色 
(zend_refcounted_h.gc_info 置 为 GC_GREY)， 然 后 对 当前 value 的 成 员 进 行 深度 优 
先 遍 历 ， 把 成 员 value 的 refcount 减 1， 并且 也 标 为 灰色 ; 


(2) 重复 遍历 buffer 链 表 ， 检 查 当 前 value 引 用 是 否 为 0， 为 0 则 表示 确实 是 垃圾 ， 把 

它 标 为 白色 (GC_WHITE)， 如 果 不 为 0 则 排除 了 引用 全 部 来 自 自身 成 员 的 可 能 ， 表 

示 还 有 外 部 的 引用 ， 并 不 是 垃圾 ， EE 直行 了 refcount 减 1 操 

作 ， 需 要 再 还 原 回 去 ， 对 所 有 成 员 进行 深度 遍历 ， 把 成 员 refcount 加 1， 同 时 标 为 黑 
色 ; 


(3) 再 次 遍历 buffer 链 表 ， 将 非 GC_WHITE 的 节点 从 roots 链 表 中 删除 ， 最 终 roots 链 
表 中 全 部 为 趴 正 的 垃圾 ， 最 后 将 这 些 垃圾 清除 。 


5.2.3 垃圾 收集 的 内 部 实现 


接 下 来 我 们 简单 看 下 垃圾 回收 的 内 部 实现 ， 垃 圾 收集 器 的 全 局 数据 结构 : 


typedef struct _zend_gc_globals { 


zend_bool gc_enabled; //% TÈ Mge 
zend_bool gc_active; // 是 否 在 垃圾 检查 过 程 中 
zend_bool gc_full; // 缓 存 区 是 否 已 满 


oC root buffer  *buf; // 局 动 时 分 配 的 用 于 保存 可 能 垃圾 的 缓存 区 


gc_root_buffer roots; // 指 向 buf 中 最 新 加 入 的 一 个 可 能 垃圾 
gc_root_buffer ”*unused;// 指 向 buf 中 没有 使 用 的 buffer 
oC root butter ”*first_unused; // 指 向 buf 中 第 一 个 没有 使 用 的 buffer 


oC root butter  *last_unused; // 指 向 Duf 尾 部 


gc_root_buffer to_free; // 待 释放 的 垃圾 
gc_root_buffer *next_to_ Tree: 


L 


uint32_t gc_runs; MA oi 
uint32_t collected; // 统 计 已 回收 的 垃圾 数 
} zend oc globals; 


typedef struct _gc_root buffer { 
zend_refcounted *ref; // 每 个 Zend_value 的 gc 信息 
struct OC root _ buffer *next; 
struct _gc_root_buffer *prev; 
BH refcount; 
} gc_root_ buffer; 


So 


zend_gc_globals 是 垃圾 回收 过 程 中 主要 用 到 的 一 个 结构 ， 用 来 保存 垃圾 回收 器 
的 所 有 信息 ， 比 如 垃圾 缓存 区 ; gc_root_buffer 用 来 保存 每 个 可 能 是 垃圾 的 变 
， 它 实际 就 是 整个 垃圾 收集 buffer 链 表 的 元 素 ， 当 GC 收 集 一 个 变量 时 会 创建 一 

个 gc_root_buffer ， 插 入 链表 。 


zend_gc_globals 这 个 结构 中 有 几 个 关键 成 员 : 


e (1)buf: 前 面 已 经 说 过 ， 当 refcount 减 少 后 如 果 大 于 0 那么 就 会 将 这 个 变量 的 
Value 加 入 GC 的 垃圾 缓存 区 ，buf 就 是 这 个 缓存 区 ， 它 实际 是 一 块 连续 的 内 存 ， 
在 GC 初 始 化 时 一 次 性 分 配 了 10001 个 gc_root buffer， 插 入 变量 时 直接 从 buf 中 
取出 可 用 节点 ; 

e (2)roots: 垃圾 缓存 链表 的 头 部 ， 尼 动 GC 检 查 的 过 程 就 是 从 roots 开 始 遍 历 的 ; 


e (3)first_unused: 指向 buf 中 第 一 个 可 用 的 节点 ， 初 始 化 时 这 个 值 为 1 而 不 是 0 ， 
为 第 一 个 gc_root_buffer 保 留 没 有 使 用 ， 有 元 素 揪 入 roots 时 如 果 first_unused 
还 没有 到 达 buf 的 尾部 则 返回 first_unused 给 最 新 的 元 素 ， 然 后 
first_unused++， 直 到 |ast_unused， 比 如 现在 已 经 加 入 了 2 个 可 能 的 垃圾 变 


量 ， 则 对 应 的 结构 : 


zend_gc_globals 


gc_root_buffer *buf 
gc_root_buffer 
*unused 


SC root butter roots 


SC root butter 
*first_unused 


SC root buffer 
Tast unused 






























SC root buffer 


SC root butter 


SC root butter 





SC root butter 






3 ge 10000 


0 1 A 


e (4)last _ unused: 与 first unused 类 似 ， 指 向 buf 末 尾 

。 (5)unused: GC 收集 变量 时 会 依次 从 buf 中 获取 可 用 的 gc_root_buffer， 这 种 情 
况 直 接 取 first_unused 即 可 ， 但 是 有 些 变 量 加 入 垃圾 缓存 区 之 后 其 refcount 又 减 
为 0 了 ， 这 种 情况 就 需要 从 roots 中 删 掉 ， 因 为 它 不 可 能 是 垃圾 ， 这 样 就 导致 
roots 链 表 并 不 是 像 buf 分 配 的 那样 是 连续 的 ， 中 间 会 出 现 一 些 开 始 加 入 后 面 又 
删除 的 节点 ， 这 些 节点 就 通过 Unused 味 成 一 个 单 链 表 ，unused 指 向 链表 尾 
部 ， 下 次 有 新 的 变量 插入 roots 时 优先 使 用 unused 的 这 些 节点 ， 其 次 才 是 
first_unused 的 ， 举 个 例子 : 人 php /示例 1: $a = array(); //$a -> 
zend_array(refcount=1) $b = $a; //$a -> zend_array(refcount=2) 


//$b -> 


unset($b); /此 时 zend_array(refcount=1)， 因 为 refoucnt>0 所 以 加 入 gc 的 垃圾 缓存 
区 : roots unset($a); // 此 时 zend_array(refcount=0) 且 gc_info 为 GC_PURPLE， 则 
从 roots 链 表 中 删 掉 


Bh unser(ëbi 时 插入 的 是 buf 中 第 1 个 位 置 ， 那 么 “unset($a) ` 后 对 应 的 结构 : 
! [](../img/zend_gc_2.png) 
如 果 后 面 再 有 变量 加 入 GC 垃 圾 缓存 区 将 优先 使 用 第 1 个 。 


此 GC 机 制 可 以 通过 php. SENG zend .enable_ gc ` 设 置 是 否 开启， 如 果 开 局 则 在 php . 
ini 解 析 后 调用 `gc_init() 进行 GC 初始 化 : 
GE 
ZEND_API void gc_init(void) 
{ 
if (GC_G(buf) == NULL Së GC_G(gc_enabled)) { 

// 分 配 buf 缓 存 区 内 存 ， 大 小 为 GC_ROOT_BUFFER_MAX_ENTRIES(10001) 
， 其 中 第 1 个 保留 不 被 使 用 

GC G(buf) = (gc _root_buffer* ) malloc(sizeof(gc_root_buff 
er) * GC_ROOT_BUFFER_MAX_ENTRIES ) ， 

GC_G(last_unused) = &GC_G(buf)[GC_ROOT_BUFFER_MAX_ENTRIE 
S]; 

// 进 行 GC_G 的 初始 化 ， 其 中 : GC_G(first_unused) = GC_G(buf) + 
1 ;从 第 2 个 开始 的 ， 第 1 个 保留 

gc_reset(); 


在 PHP 的 执行 过 程 中 ， 如 果 发 现 array、object 减 掉 refcount 后 大 于 0 则 会 调 
用 gc_possible_root() 将 zend_ value 的 gc 头 部 加 入 GC 垃 圾 缓存 区 : 


ZEND_API void ZEND_FASTCALL gc_possible_root(zend_refcounted *re 
T) 
{ 


gc_root_buffer *newRoot; 


SE D E A E ër TE: 
Z/7mgS A DIH RAAM EGC BLACK ， -E His A 


ZEND RTC ETE REF_GET COLOR( ref ) == GC_BLACK)); 


newRoot = GC_G(unused); // 先 看 下 unused 中 有 没有 可 用 的 
if (newRoot ) { 
// 有 的 话 先 用 unused 的 ， 然 后 将 GC_G(unused ) 指向 单 链表 的 下 一 个 


GC_G(unused) = newRoot->prev 


L else if (GC_G(first_unused) != GC G(last unused)) { 
//unused 没 有 可 用 的 ， 且 buf 中 还 有 可 用 的 
newRoot = GC_G(first_unused); 
GC_G(first_unused)++; 
} else { 
//buf 缓 存 区 已 满 ， 这 时 需要 启动 垃圾 检查 程序 了 ， 遍 历 roots， 将 看 正 的 
垃圾 释放 
// 垃 圾 回收 的 动作 就 是 在 这 触发 的 
if (!GC G(gc_ enabled)) { 
return; 


// 启 动 垃圾 回收 过 程 
gc_collect cycles(); Z/PR' zend gc collect cycles( ) 


// 将 插入 的 ref 标 为 紫色 ， 防 止 重复 插入 

GC TRACE SET COLOR(ref, GC_PURPLE); 

// 注 意 : gc_info 不 仅仅 只 有 颜色 的 信息 ， 还 会 记录 当前 gc_root_buffer 在 整 
个 buf 中 的 位 置 

// 这 样 做 的 目的 是 可 以 直接 根据 zend_value 的 gc 信息 取 到 它 的 gc_root_buffe 

， 便于 进行 删除 操作 
GC_INFO(ref) = (newRoot - GC G(buf)) | GC_PURPLE; 
newRoot->ref = ref; 


//GC_G(roots) ,next 指向 新 插入 的 元 素 
newRoot ->next = GC_G(roots).next; 
newRoot->prev = &GC G(roots); 
GC_G(roots).next->prev = newRoot; 
GC_G(roots).next = newRoot; 


同一 个 zend_value 只 会 插入 一 次 ， 再 次 播 入 时 如 果 发 现 其 gc_info 不 是 GC_BLACK 
则 直接 跳 过 。 另 外 像 上 面 示例 1 的 情况 ， 插 入 后 如 果 后 面 发 现 其 refcount 减 为 0 了 则 
表明 它 可 以 直接 被 回收 掉 ， 这 时 需要 把 这 个 节点 从 roots 链 表 中 删除 ， 删 除 的 操作 通 
过 GC_REMOVE_FROM_BUFFER() 宏 操 作 : 


#define GC_REMOVE_FROM_BUFFER(p) do { \ 
zend_refcounted *_p = (zend_refcounted*)(p); A 
if (GC_ADDRESS(GC_INFO(_p))) { \ 
gc_remove_from_buffer(_p); A 
}\ 
} while (0) 


ZEND_API void ZEND FASTCALL gc_remove_ from buffer(zend_refcounte 
d *ref) 
{ 


gc_root_buffer *root; 


//GC_ADDRESS 就 是 获取 节点 在 缓存 区 中 的 位 置 ， 因 为 删除 时 输入 是 zend_refco 
umeed 

// 而 缓存 链表 的 节点 类 型 是 gc_root_buffer 

root = GC_G(buf) + GC_ADDRESS(GC_INFO(ref)); 

if (GC_REF_GET_COLOR(ref) != GC_BLACK) { 

GC_TRACE_SET_COLOR(ref, GC_PURPLE); 

} 

GC_INFO(ref) = 0; 

GC_REMOVE_FROM_ROOTS (root); // 双 向 链 衣 的 删除 操作 


插入 时 如 果 发 现 垃圾 缓存 链表 已 经 满 了 ， 则 会 启动 垃圾 回收 过 

程 : zend_gc_collect_cycles() ， 这 个 过 程 会 对 之 前 插入 缓存 区 的 变量 进行 判 
断 是 否 是 循环 引用 导致 的 鼻 正 的 垃圾 ， 如 果 是 垃圾 则 会 进行 回收 ， 回 收 的 过 程 前 面 
已 经 介绍 过 : 


ZENDEABPT nt zeng ge Collet wveclesivotgd 
{ 


//(1) 人 遍历 roots 链 表 ， 对 当前 节点 value 的 所 有 成 员 ( 如 数组 元 素 、 成 员 属 性 ) 进 
行 深度 优先 遍历 把 成 员 refcount 减 1 
gc_mark_roots(); 


//(2) 再 次 遍历 roots 链 表 ， 检 查 各 节点 当前 refcount 是 否 为 0， 是 的 话 标 为 白 
色 ， 表 示 是 垃圾 ， 不 是 的 话 需 要 对 还 原 (1)， 把 Fefcount 再 加 回去 
gc_scan_roots(); 


//(3) 将 roots 链 表 中 的 非 白色 节点 删除 ， 之 后 roots 链 表 中 全 部 是 丨 正 的 垃圾 ， 
将 垃圾 链表 转 到 to_free 等 待 释放 
count = gc _ collect roots(&gc flags, &additional buffer ) ， 


//(4) 释 放 垃 圾 
current = to Tree next: 
while (current != &to _ free) { 


p = current->ref; 

GC_G(next_to_free) = current->next; 

if ((GC_TYPE(p) & GC_TYPE_MASK) == IS_OBJECT) { 
// 调 用 free_obj 释 放 对 象 
obj->handlers->free_obj(obj); 


} else if ((GC TYPE(p) & GC_TYPE MASK) == IS ARRAY) { 
// 释 放 数 组 
zend_array *arr = (end array*)p; 


GC_TYPE(arr) = IS NULL; 
zend_hash_destroy(arr); 


} 


current = G6C_G(next_to_free); 


各 步骤 具体 的 操作 不 再 详细 展开 ， 这 里 单独 说 明 下 value 成 员 的 遍历 ，array 比 较 好 
理解 ， 所 有 成 员 都 在 arData 数 组 中 ， 直 接 遍 历 arData 即 可 ， 如 果 各 元 素 仍 是 array、 
object 或 者 引用 则 一 直 递 归 进 行 深 度 优先 遍历 ; object 的 成 员 指 的 成 员 属 性 (不 包括 
静态 属性 、 常 量 ， 它 们 属于 类 而 不 属于 对 象 ) ， 前 面 介 绍 对 象 的 实现 时 曾 说 过 ， 成 
员 属 性 除了 明确 的 在 类 中 定义 的 那些 外 还 可 以 动态 创建 ， 动 态 属性 保存 于 
zend_obejct->properties 哈 希 表 中 ， 普 通 属性 保存 于 zend_object.properties_table 
数组 中 ， 这 样 以 来 object 的 成 员 就 分 散在 两 个 位 置 ， 那 么 遍历 时 是 分 别人 遍历 吗 ? Ss 


案 是 否定 的 。 


实际 前 面 已 经 简单 提 过 ， 在 创建 动态 属性 时 会 把 全 部 普通 属性 也 加 到 zend_obejct- 
>properties 哈 希 表 中 ， 指 向 原 zend_object.properties_table 中 的 属性 ， 这 样 一 来 GC 
遍历 object 的 成 员 时 就 可 以 像 array 那 样 遍 历 zend_obejct->properties 即 可 ，GC 获 取 
object 成 员 的 操作 由 get gc( 即 : zend std get gc()) 完 成 : 


ZEND_API HashTable *zend_std oer gc(zval *object, zval **table, 
ne nD 
{ 
if (Z OBJ HANDLER P(object, oer Dropertiesl != zend std oer 
properties) { 
*table = NULL; 
*n = 0; 
return 2Z OBJ HANDLER P(object, oer properties)(object); 
} else { 
zend_object *zobj = Z_0BJ_P(object); 


if (zobj->properties) { 


d I/A Ih } 
WE K 


"table = NULL; 

*n = 0; 

return zobj->properties; 
} else { 


// 没 有 定义 过 动态 属性 ， 返 回 数组 


AA ZEL 


JE 


*table = zobj->properties_table; 
*n = zobj->ce->default_properties_count; 
return NUNE 


5.2 垃圾 回收 


328 


6.1 介绍 


在 C 语 言 中 声明 在 任何 函数 之 外 的 变量 为 全 局 变量 ， 全 局 变量 为 各 线程 共享 ， 不 同 
的 线程 引用 同一 地 址 空间 ， 如 果 一 个 线程 修改 了 全 局 变量 就 会 影响 所 有 的 线程 。 所 
以 线程 安全 是 指 多 线程 环境 下 如 何 安全 的 获取 公共 资源 。 


PHP 的 SAPI 多 数 是 单线 程 环境 ， 比 如 cli、fpm、cgi， 每 个 进程 只 启动 一 个 主线 程 ， 
这 种 模式 下 是 不 存在 线程 安全 问题 的 ， 但 是 也 有 多 线程 的 环境 ， 比 如 Apache， 或 用 
户 自己 诅 入 PHP 实 现 的 环境 ， 这 种 情况 下 就 需要 考虑 线程 安全 的 问题 了 ， 因 为 PHP 
中 有 很 多 全 局 变量 ， 比 如 最 常见 的 : EG、CG， 如 果 多 个 线程 共享 同一 个 变量 将 会 
冲突 ， 所 以 PHP 为 多 线程 的 应 用 模型 提供 了 一 个 安全 机 制 : Zend 线 程 安 全 (Zend 
Thread Safe, ZTS) ° 


6.2 线程 安全 资源 管理 器 


PHP 中 专门 为 解决 线程 安全 的 问题 抽象 出 了 一 个 线程 安全 资源 管理 器 (Thread Safe 
Resource Mananger TSRM)， 实 现 原 理 比 较 简 单 : 既然 共用 资源 这 么 困难 那么 就 
干脆 不 共用 ， 各 线程 不 再 共享 同一 份 全 局 变量 ， 而 是 各 复制 一 份 ， 使 用 数据 时 各 线 
程 各 取 自 己 的 副本 ， 互 不 干扰 。 


6.2.1 基本 实现 


TSRM 核 心思 想 就 是 为 不 同 的 线程 分 配 独立 的 内 存 空 间 ， 如 果 一 个 资源 会 被 多 线程 
使 用 ， 那 么 首先 需要 预先 向 TSRM 注 册 资 源 ， 然 后 TSRM 为 这 个 资源 分 配 一 个 唯一 
的 编号 ， 并 把 这 种 资源 的 大 小 、 初 始 化 函数 等 保存 到 一 

个 tsrm_resource_type 结构 中 ， 各 线程 只 能 通过 TSRM 分 配 的 那个 编号 访问 这 

个 资源 ; 然后 当 线程 拿 着 这 个 编号 获取 资源 时 TSRM 如 果 发 现 是 第 一 次 请 求 ， 则 会 
根据 注册 时 的 资源 大 小 分 配 一 块 内 存 ， 然 后 调用 初始 化 函数 进行 初始 化 ， 并 把 这 块 
资源 保存 下 来 供 这 个 线程 后 续 使 用 。 


TSRM 中 通过 两 个 结构 分 别 保存 资源 信息 以 及 具体 的 资源 : tsrm_resource type、 
tsrm_tls_entry， 前 者 是 用 来 记录 资源 大 小 、 初 始 化 函数 等 信息 的 ， 具 体 分 配 资源 内 
存 时 会 用 到 ， 而 后 者 用 来 保存 各 线程 所 拥有 的 全 部 资源 : 


struct _tsrm_tls_entry { 
void **storage; // 3 J Zx 2 
int count; // 拥 有 的 次 
THREAD_T thread id; //) 


tsrm_ tls_entry *next; 





(éi 


typedef struct { 
size_t size; / /资源 的 大 小 
ts_allocate_ctor ctor; // 初 始 化 函数 
ts allocate dtor dtor; 
int done; 

} tsrm resource type; 


每 个 线程 拥有 一 个 tsrm_tls_entry 结构 ， 当 前 线程 的 所 有 资源 保存 在 storage 数 
组 中 ， 下 标 就 是 各 资源 的 id 。 


另外 所 有 线程 的 tsrm_tls_entry 结构 通过 一 个 数组 保存 : tsrm_tls_table， 这 是 
个 全 局 变量 ， 所 以 操作 这 个 变量 时 需要 加 锁 。 这 个 值 在 TSRM 初 始 化 时 按照 预 设 置 
的 线程 数 分 配 ， 每 个 线程 的 tsrm_tls_entry 结 构 在 这 个 数组 中 的 位 置 是 根据 线程 id 与 
预 设置 的 线程 数 (tsrm_tls_table_size) 取 模 得 到 的 ， 也 就 是 说 有 可 能 多 个 线程 保存 在 
tsrm_tls_table 同 一 位 置 ， 所 以 tsrm_tls_entry 是 个 链表 ， 查 找 资源 时 首先 根据 : 线程 
id % tsrm_tls_table_size 得 到 一 个 tsrm_tls_entry， 然 后 开始 遍历 链表 比较 
thread id 确定 是 否 是 当前 线程 的 。 


6.2.1.1 初始 化 


在 使 用 TSRM 之 前 需要 主动 开店， 一 般 这 个 步骤 在 sapi 启 动 时 执行 ， 主 要 工作 就 是 
分 配 tsrm_tls_table、resource_ types _table 内 存 以 及 创建 线程 互 矿 锁 ， 下 面具 体 看 
下 TSRM 初 始 化 的 过 程 (以 pthread 为 例 ): 


TSRM API int tsrm startup(int expected_threads, int expected res 
ources, int debug Level, char *debug filename) 
{ 

pthread_key_create( &tls_key, 0 ); 


// 分 配 tsrm_tls_table 

tsrm tls_ table size = expected threads; 

tsrm_ tls_table = (tsrm tie entry **) calloc(tsrm tls_ table s 
ize, sizeof(tsrm tls_entry *)); 





// 初 始 化 资源 的 递增 jd， 注册 资源 时 就 是 用 的 这 个 值 


id_count=0; 


// 分 配 资 源 类 型 数组 : resource_types_table 

resource_types_table size = expected resources; 

resource_types_ table = (tsrm resource type *) calloc(resourc 
e_types_table size, sizeof(tsrm resource_ type)); 


// 创 建 锁 
tsmm mutex = tsrm mutex_alloc(); 


6.2.1.2 资源 注册 


初始 化 完成 各 模块 就 可 以 各 自 进行 资源 注册 了 ， 注 册 后 TSRM 会 给 注册 的 资源 分 配 
唯一 id， 之 后 对 此 资源 的 操作 只 能 依据 此 id， 接 下 来 我 们 以 EG 为 例 具体 看 下 其 注册 
过 程 。 


#ifdef ZTS 
ZEND_API int executor_globals_id; 
#endif 


int zendistartup( zend utIlitv Tupnctiopns Futility functions, char 
**extensions) 


{ 


#ifdef ZTS 

ts_allocate_id(&executor_globals_id, sizeof(zend_executor_gl 
obals), (ts_allocate_ctor) executor_globals_ctor, (ts_allocate_d 
tor) executor_globals_dtor); 


executor_globals = ts_resource(executor_globals_id); 


#endif 
} 


资源 注册 调用 ts_allocate_id() 完成 ， 此 函数 有 4 个 参数 有 ， 第 一 个 就 是 定义 的 
资源 id 指针 ， 注 册 之 后 会 把 分 配 的 id 写 到 这 里 ， 第 二 个 是 资源 类 型 的 大 小 ，EG 资 源 
的 结构 是 zend_executor_globals ， 所 以 这 个 值 就 是 

sizeof(zend_executor globals)， 后 面 两 个 分 别 是 资源 的 初始 化 函数 以 及 销毁 函 

数 ， 因 为 TSRM 并 不 关心 资源 的 具体 类 型 ， 分 配 资源 时 它 只 按照 size 大 小 分 配 内 
存 ， 然 后 回调 各 资源 自己 定义 的 ctor 进 行 初 始 化 。 


TSRMSAPT E EEN e E DEI eeh eh E ge e be eebe 
ts_allocate_dtor dtor) 


ize, 


{ 


ts_allocate_ctor ctor, 


证 各 线 


T FN 


// 加 锁 ， 保 FE EITA e AX 
tsrm_mutex EE mutex 


r 


//7 id?’ 


Zrerc id = 


即 id_ count 当 前 值 ， 


// 检 查 

if (resource_types_table_s 

// 需 要 对 resource_types_- 
resource_types_table 
source_types_table, 


sizeof (tsr 


// 把 数组 大 小 修改 新 的 大 小 
resource_types_ table s 


// 将 新 注册 的 资源 插入 resource 

resource_types_table[TSRM 
size; 

resource_types_table[TSRM_ 
ctor; 

resource_types_table[TSRM 
dtor; 

resource_types_table[TSRM_ 
0; 


ww 


到 这 里 并 没有 结束 ， 所 有 的 资源 并 不 是 

能 有 线程 已 经 分 配 先前 注册 的 资源 了 ， 
否则 storage 将 没有 空间 容纳 新 的 资源 。 

tsrm_tls_entry ， 


展 。 


resource_types_table 数 组 : 


_types_table 数 组 ， 下 标 就 是 
_UNSHUFFLE_RSRC_ID(*rsrc id)].size 


检查 storage 当 时 是 否 有 空闲 空 


size_t s 


数 
St 


Ab 


然后 把 id_count 加 1 
TSRM_SHUFFLE_RSRC_ID(id_ count++); 


当前 大 小 是 
ize < id _count) { 
tab1e 扩 : 
(tsrm_resource_type *) realloc(re 
m_resource_type)*id_count); 


否 已 满 


从 


Ze = 


id_count; 


PNE 开工 


分 配 的 资源 id 


UNSHUFFLE_RSRC_ID(*rsrc id)].ctor 


_UNSHUFFLE_ RSRC_ID(*rsrc_id)].dtor 


UNSHUFFLE_RSRC_ID(*rsrc_id)].done 


统一 时 机 注册 的 ， 所 以 注册 一 个 新 资源 时 可 
因此 需要 对 各 线程 的 storage 数 组 进行 扩容 ， 
。 扩 容 的 过 程 比较 简单 : 遍历 各 线程 的 

间 ， 有 的 话 跳 过 ， 没 有 的 话 则 扩 


Tor (i=0; i<tsrm_tls_table_size; i++) { 
tsrm_tls_entry *p = tsrm_tls_table[i]; 


//tsrm_tls_table[i] 可 能 保存 着 多 个 线程 ， 需 要 人 遍历 链表 


while (p) { 
if (p->count < id_count) { 
TNE 


// 将 storage 扩 容 
p->storage = (void *) realloc(p->storage, sizeof(void 


*)*id_count); 
// 分 配 并 初始 化 新 注册 的 资源 ， 实 际 这 里 只 会 执行 一 次 ， 不 清楚 为 什么 
用 循环 
// 另 外 这 里 不 分 配 内 存 也 可 以 ， 可 以 放 到 使 用 时 再 去 分 配 
for (j=p->count; j<id_ count; j++) { 
p->storage[j] = (void *) malloc(resource types 上 


able[j].size); 
if (resource_types_table[j].ctor) { 
// 回 调 初 始 化 函数 进行 初始 化 
resource_types_table[j].ctor(p->storage[j]); 


} 


p->count = id_count; 


= p->next; 


最 后 将 锁 释 放 ， 完 成 注册 。 


6.2.1.3 获取 资源 

资源 的 id 在 注册 后 需要 保存 下 来 ， 根 据 id 可 以 通过 ts_resource() 获取 到 对 应 资 
源 的 值 ， 比 如 EG， 这 里 暂 不 考虑 EG 宏 展开 的 结果 ， 只 分 析 最 底层 的 根据 资源 id 获 
取 资 源 的 操作 。 


Zend evecutor globals "Zevecutor globale: 


executor globals = ts_resource(executor globals_ id); 


这 样 获取 的 executor_globals 值 就 是 各 线程 分 离 的 了 ， 对 它 的 操作 将 不 会 再 影 
响 其 它 线程 。 根 据 资 源 id 获 取 当 前 线程 资源 的 过 程 : 首先 是 根据 线程 id 哈 希 得 到 当 
前 线程 的 tsrm_tls_entry 在 tsrm_tls_table 哪 个 模 中 ， 然 后 开始 遍历 比较 id， 直 到 找到 
当前 线程 的 tsrm _ tls_entry， 这 个 查找 过 程 是 需要 加 锁 的 ， 最 后 根据 资源 id 从 storage 
中 对 应 位 置 取出 资源 的 地 址 ， 这 个 时 候 如 果 发 现 当 前 线程 还 没有 创建 此 资源 则 会 从 
resource_types_table 根 据 资 源 id 取 出 资源 注册 时 的 大 小 、 初 始 化 函数 ， 然 后 分 配 内 
存 、 调 用 初始 化 函数 进行 初始 化 并 插入 所 属 线程 的 storage 中 。 


TSRMEAPT votgd its resorcenex(ts i rsre ig THREAD T thard) 
{ 

THREAD_T thread_id; 

int hash_value; 

tsrm_tls_entry *thread_resources; 


//step 1: 获取 线程 id 
if (!th_id) { 
// 获 取 当 前 线程 通过 Specific data 保 存 的 tsrm_t1ls_entry， 暂 时 忽略 
thread_resources = tsrm_tls_get(); 
if(thread_resources){ 
// 找 到 线程 的 tsrm_ tls_entry 了 
TSRM_SAFE_RETURN_RSRC(thread_resources->storage, id, 
thread_resources->count); // A281 
} 
//pthread_self()， 当 前 线程 id 
thread id = tsrm thread id(); 
}else{ 
thread_id = *th_id; 


//step 2: 查 找 线程 tsrm_tls_entry 
tsrm mutex_lock(tsmm_mutex); / /加 领 


// 实 际 就 是 thread id % tsrm tls table size 
hash_value = THREAD_HASH_OF(thread_id, tsrm_tls_table_size); 


// 链 表 头 部 
thread_resources = tsrm tls_table[hash_value]; 
if (!thread_resources) { 


// 当 前 线程 第 一 次 使 用 资源 还 未 分 配 : 先 分 配 tsrm_t1ls_entry 


allocate new resource(&tsrm tls table[hash_ valuel, threa 





d_id); 
// 分 配 完 再 次 调用 ， 这 时 候 将 走 到 下 面 的 分 支 
return ts_resource ex(id, &thread_id); 
}else{ 
// 遍 历 查 找 当 前 线程 的 tsrm_t1ls_entry 
do { 


// 找 到 了 
if (bread resources->thread id == thread id) { 
break; 
} 
if (bread resources->next) { 
thread resources = thread resources->next,; 
} else { 
// 遍 历 到 最 后 也 没 找到 ， 与 上 面 的 一 致 ， 先 分 配 再 查找 
allocate_new_resource(&thread_resources->next, t 
hread_id); 
return ts_resource_ex(id, &thread_id); 


} 
} while (thread_resources); 
} 
/7 解锁 


tsrm_mutex_unlock(tsmm_mutex); 


/step 3: 返回 资源 
TSRM_SAFE_RETURN_RSRC(thread_resources->storage, id, thread_ 
resources->count); 


} 


首先 是 获取 线程 id， 如 果 没 有 传 的 话 就 是 当前 线程 ， 然 后 在 tsrm_tls_table 中 查找 当 
前 线程 的 tsrm_tls_entry， 不 存在 则 表示 当前 线程 第 一 次 使 用 资源 ， 则 需要 调 

用 allocate_new_resource() 为 当前 线程 分 配 tsrm_tls_entry， 并 插入 
tsrm_tls_table， 这 个 过 程 还 会 为 当前 已 注册 的 所 有 资源 分 配 内 存 : 


static void allocate new resource(tsrm tj]s entry **thread_resour 
Ces Dr, THREAD_T thread_ id) 
{ 

(*thread_resources_ptr) = (tsrm tls_entry zl malloc(sizeof(t 
srm_tls_entry)); 

(*thread_resources_ptr)->storage = NULL; 

// 根 据 已 注册 资源 数 分 配 storage 数 组 大 小 ， 注 意 这 里 并 不 是 分 配 为 各 资源 分 配 
空间 

if (id_count > 0) { 

(*thread_resources_ptr)->storage = (void **) malloc(size 

of(void *)*id_count); 

} 

(*thread_resources ptr)->count = id Count: 

(*thread_resources_ ptr)->thread id = thread_ id; 


// 将 当前 线程 的 tsrm_tls_entry 保 存 到 线程 本 地 存储 (Thread Local Stora 
ge, TLS) 
tsrm tls_ set(*thread resources ptr); 


// 为 全 部 资源 分 配 空 间 
for (i=0; i<id count; i++) { 


(*thread_resources ptr)->storage[i] = (void *) malloc(re 
source_types_table[i].size); 


里 还 用 到 了 一 个 多 线程 中 经 常用 到 的 一 个 东西 : 线程 本 地 存储 (Thread Local 
Storage, TLS)， 在 创建 完 当 前 线程 的 tsrm _ tls_entry 后 会 把 这 个 值 保存 到 当前 线程 
EE resources_ptr) 操 作 )， 这 样 
在 ts_resource() 中 就 可 以 通过 tsrm tls_get() 直接 取 到 了 ， 节 省 加 锁 检 索 
的 时 间 。 


H i Loi D toa ei A 
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线程 本 地 存储 (Thread Local Storage, TLS): 我 们 知道 在 一 个 进程 中 ， 所 有 线 
程 是 共享 同一 个 地 址 空间 的 。 所 以 ， 如 果 一 个 变量 是 全 局 的 或 者 是 静态 的 ， 那 
么 所 有 线程 访问 的 是 同一 份 ， 如 果 某 一 个 线程 对 其 进行 了 修改 ， 也 就 会 影响 到 
其 他 所 有 的 线程 。 不 过 我 们 可 能 并 不 希望 这 样 ， 所 以 更 多 的 推荐 用 基于 堆栈 的 
自动 变量 或 函数 参数 来 访问 数据 ， 因 为 基于 堆栈 的 变量 总 是 和 特定 的 线程 相 联 
系 的 。TLS 在 各 平台 下 实现 方式 不 同 ， 主 要 分 为 两 类 : 静态 TLS、 动 态 TLS， 
pthread 中 pthread_setspecific()、pthread_getspecific() 的 实现 就 可 以 认为 是 动 
态 TLS 的 实现 。 


比如 tsrm_ tls_table size 初始 化 时 设置 为 了 2， 当 前 有 2 个 thread : thread 1、thread 
2， 假 如 注册 了 CG、EG 两 个 资源 ， 则 存储 结构 如 下 图 : 


tsrm tls table thread 1 
tsrm_tls_entry 


THREAD_T 
thread_id = 1 
tsrm_tls_entry 

"next 


thread 2 











compiler_globals_id executor_globals_id 


zend_compiler_globals* | zend_executor_globals * 


zend_executor_globals 
















tsrm_tls_entry 


compiler_globals_id executor_globals_id 
zend_compiler_globals * | zend_executor_globals * 
THREAD_T 
thread id = 2 zend_executor_globals 
tsrm_tls_entry sas 
"next 


6.2.2 Native-TLS 


上 一 节 我 们 介绍 了 资源 的 注册 以 及 根据 资源 id 获取 资源 的 方法 ， 那 么 PHP 内 核 每 次 
使 用 对 应 的 资源 时 难道 都 需要 调用 ts_resource() 吗 ? 如果 是 这 样 的 话 那么 多 次 
在 使 用 EG 时 实际 都 会 调 一 次 这 个 方法 ， 相 当 于 我 们 需要 调用 一 个 函数 来 获取 一 个 
变量 ， 这 在 性 能 上 是 不 可 接受 的 ， 那 么 有 什么 办 法 解决 呢 ? 

ts_resource() 最 核心 的 操作 就 是 根据 线程 id 获取 各 线程 对 应 的 Storage 数组， 这 


也 是 最 耗 时 的 部 分 ， 至 于 接 下 来 根据 资源 id 从 storage 数 组 读 取 资 源 就 是 普通 的 内 存 
读 取 了 ， 这 并 不 影响 性 能 ， 所 以 解决 上 面 那个 问题 的 关键 就 在 于 尽 可 能 的 减少 线程 


storage 的 检索 。 这 一 节 我 们 来 分 析 下 PHP 是 如 果 解 决 这 个 问题 的 ， 在 介绍 PHP7 
实现 方式 之 前 我 们 先 看 下 PHP5.x 的 处 理 方式 。 


PHP5 的 解决 方式 非常 简单 ， 我 们 还 是 以 EG 为 例 ，EG 在 内 核 中 随处 可 见 ， 不 是 要 
减少 对 各 线程 storage 的 检索 次 数 吗 ， 那 么 我 就 只 要 检索 过 一 次 就 把 已 获取 的 
storage 指 针 传 给 接 下 来 调用 的 函数 用 ， 其 它 阴 数 再 一 级 级 往 下 传 ， 这 样 一 来 各 函数 
如 果 发 现 storage 通 过 参数 传 进来 了 就 直接 用 ， 无 需 再 检索 了 ， 也 就 是 通过 层 层 传递 
的 方式 减少 解决 这 个 问题 的 。 这 样 以 来 岂 不 是 每 个 函数 都 得 带 这 么 一 个 参数 ?调用 
别 的 汐 数 也 得 把 这 个 值 带 上 ? 是 的 。 即 使 这 个 函数 自己 不 用 它 也 得 需要 这 个 值 ， 
为 有 可 能 调用 别 的 函数 的 时 候 其 它 函 数 会 用 。 


如 果 你 对 PHP5 有 所 了 解 的 话 一 定 经 常 看 到 这 两 个 宏 : TSRMLS DC, 
TSRMLS CC， 这 两 个 宏 就 是 用 来 传递 storage 指 针 的 ，TSRMLS _DC 用 在 定义 函 
数 的 参数 中 ， 实 际 上 它 就 是 一 个 普通 的 参数 定义 ，TSRMLS_CC 用 在 调用 函数 时 ， 
它 就 是 一 个 普通 的 变量 值 ， 我 们 看 下 它 的 展开 结果 : 


#define TSRMLS_DC , Void ***tsrm ls 
#define TSRMLS_CC , tsrm ls 


它 的 用 法 是 第 一 个 检索 到 storage 的 函数 把 它 的 指针 传递 给 了 下 面 的 函数 ， 参 数 是 
tsrm_ls， 后 面 的 函数 直接 根据 接收 的 参数 使 用 获取 再 传 给 其 它 函 数 ， 当 然 也 可 以 不 
传 ， 那 样 的 话 就 得 重新 调用 ts_resource() 获 取 了 “。 现 在 我 们 再 看 下 EG 宏 展开 的 结 
果 : 


# define EG(v) TSRMG(executor_globals_id, zend evecutor globals 
V) 


#define TSRMG(id, type, element) (((type) (*((void ***) tsrm_ 
1s))[TSRM_UNSHUFFLE_RSRC_ID(id)])->element) 


比如 : EG(function table) => (((zend_executor_globals *) (*((void 
***) tsrm ls))[executor_globals id-1])->function_ table) ， 这 样 我 们 在 
传 了 tsrm_ls 的 函数 中 就 可 能 读 取 内 存 使 用 了 。 


PHP5 的 这 种 处 理 方式 简单 但 是 很 不 优雅 ， 不 管 你 用 不 用 TSRM 都 不 得 不 在 函数 中 
加 上 那 两 个 宏 ， 而 且 很 容易 遗漏 。 后 来 Anatol Belski 在 PHP 的 rfc 提 交 了 一 种 新 的 处 
理 方式 : https:/wiki.php.net/rfc/native-tls， 新 的 处 理 方式 最 终 在 PHP7 版 本 得 以 实 


现 ， 通 过 静态 TLS 将 各 线程 的 storage 保 存在 全 局 变量 中 ， 各 有 函数 中 使 用 时 直接 读 取 
即 可 。 


linux 下 这 种 全 局 变量 通过 加 上 thread 定义 ， 这 样 各 线程 更 新 这 个 变量 就 不 会 冲 
突 了 ， 实 际 这 是 gcc 提 供 的 ， 详 细 的 内 容 这 里 不 再 展开 ， 有 兴趣 的 可 以 再 查 下 详细 
的 资料 。 举 个 例子 : 


#include <stdio.h> 

#include <stdlib.h> 
#include <pthread. h> 
#include <unistd.h> 


_ thread int num = 0; 


void* worker (void* arg){ 


while(1){ 
printf("thread:%d\n", num); 
sleep(1); 

} 


int main(void) 

{ 
pthread_t tid; 
int ret; 


if ((ret = pthread_create(&tid, NULL, worker, NULL)) != 0){ 


return 1; 

} 

while(1){ 
num = 4; 
printf("main:%d\n", num); 
sleep(1); 

} 

return ©; 


这 个 例子 有 两 个 线程 ， 其 中 主线 程 修改 了 全 局 变量 num， 但 是 并 没有 影响 另外 一 个 
线程 。 


PHP7 中 用 于 缓存 各 线程 storage 的 全 局 变量 定义 在 Zend/zend.c : 


#ifdef ZTS 

// 这 些 都 是 全 局 变量 

ZEND_API int compiler globals_id， 

ZEND_API int executor_globals_id; 

static HashTable *global_function_table = NULL; 

static HashTable *global_class_table = NULL; 

static HashTable *global_constants_table = NULL; 

static HashTable *global auto globals table = NULL; 

static HashTable *global_persistent_list = NULL; 
ZEND_TSRMLS_CACHE_DEFINE() //=>TSRM_TLS void *TSRMLS CACHE = NUL 


E p é. 
LESI Je 





E void * tsrm ls cache = NULL，_tsrm 1s_cache 就 





比如 EG : 


# define EG(v) ZEND TSRMG(executor_globals_id, zend executor_glo 
bals *, v) 


#define ZEND_TSRMG TSRMG_STATIC 

#define TSRMG_ STATIC(id, type, element) (TSRMG BULK_STATIC(id, t 
ype)->element) 

#define TSRMG_ BULK_STATIC(id, type) ((type) (*((void ***) TSRMLS 
_CACHE) ) [TSRM_UNSHUFFLE_RSRC_ID(id)]) 


EG(xxx) 最 终 展 开 : (Gend evecutor globals ) (((void " _tsrm_Is_cache)) 
[executor_globals_id-1]->xxx) ° 


7.1 概述 


扩展 是 PHP 的 重要 组 成 部 分 ， 它 是 PHP 提 供给 开发 者 用 于 扩展 PHP 语 言 功 能 的 主要 
方式 。 开 发 者 可 以 用 C/C++ 定 义 自 己 的 功能 ， 通 过 扩展 瞪 入 到 PHP 中 ， 灵 活 的 扩展 
能 力 使 得 PHP 拥 有 了 大 量 、 丰 富 的 第 三 方 组 件 ， 这 些 扩展 很 好 的 补充 了 PHP 的 功 
能 、 特 性 ， 使 得 PHP 在 web 开 发 中 得 以 大 展 身 手 。ext 目 录 下 有 一 个 standard 扩 展 ， 
这 个 扩展 提供 了 大 量 被 大 家 所 熟知 的 PHP 部 数 ` sleep()、usleep()、 
htmlspecialchars()、 md5() ` strtoupper() ` substr()、array_merge() 等 等 。 

C 语 言 是 PHP 之 母 ， 作 为 世界 上 非常 优秀 的 一 门 语言 ， 自 它 诞生 至 今 ，C 语 言 早 就 
了 大 量 优秀 、 知 名 的 项 目 : Linux、Nginx、MySQL、PHP、Redis、Memcached 等 
等 ， 感 谢 里 奇 带 给 这 个 世界 如 此 伟大 的 一 份 礼物 。C 语 言 的 优秀 也 折射 到 PHP 身 
上 ， 但 是 PHP 内 核 提 供 的 功能 终 守 有限， 如 果 你 发 现 PHP 在 某 些 方面 已 经 满足 不 了 
你 的 需求 了 ， 那 么 不 妨 试 试 扩展 。 


常见 的 ， 扩 展 可 以 在 以 下 几 个 方面 有 所 作为 : 


e 介入 PHP 的 编译 、 执 行 阶段 : 可 以 介入 PHP 框 架 执行 的 那 5 个 阶段 ， 比 如 
opcache > HÆ EZT A hA 

e 提供 内 部 函数 : 可 以 定义 内 部 函数 扩充 PHP 的 函数 功能 ， 比 如 array、date 等 
操作 

e 提供 内 部 类 

e 实现 RPC 客 户 端 : 实现 与 外 部 服务 的 交互 ， 比 如 redis、mysql 等 

e 提升 执行 性 能 : PHP 是 解析 型 语言 ， 在 性 能 方面 远 不 及 C 语 言 ， 可 以 将 耗 cpu 
的 操作 以 C 语 言 代替 


当然 扩展 也 不 是 万 能 ， 它 只 允许 我 们 在 PHP 提 供 的 框架 之 上 进行 一 些 特 定 的 处 理 ， 
同时 限于 SAPI 的 差异 ， 扩 展 也 必须 要 考虑 到 不 同 SAPI 的 实现 特点 。 


PHP 中 的 扩展 分 为 两 类 : PHP 扩 展 、Zend 扩 展 ， 对 内 核 而 言 这 两 个 分 别称 之 为 : 模 
块 (module)、 扩 展 (extension)， 本 章 主 要 介绍 是 PHP 扩 展 ， 也 就 是 模块 。 


7.2 扩展 的 实现 原理 


PHP 中 扩展 通过 zend_module_entry 这 个 结构 来 表示 ， 此 结构 定义 了 扩展 的 全 部 
信息 : 扩展 名 、 扩 展 版 本 、 扩 展 提供 的 函数 列表 以 及 PHP 四 个 执行 阶段 的 hook 骂 数 
等 ， 每 一 个 扩展 都 需要 定义 一 个 此 结构 的 变量 ， dee 


是 : {module_name}_module_entry ， 内 核 正 是 通过 这 个 结构 获取 到 扩展 提供 
功能 的 。 


扩展 可 以 在 编译 PHP 时 一 起 编译 (静态 编译 ) 9 也 可 以 单独 编译 为 动 态 库 ， 动 SES 
要 加 入 到 php.ini 配 置 中 去 ， 然 后 在 php_module_startup() 阶段 把 这 些 动态 库 加 
载 到 PHP 中 ` 


int php module startup(sapi module struct "ef, zend module entry 
*additional_modules, uint num_additional_modules) 


{ 


D 据 php.ini 注 册 扩 展 
php_ini_register_extensions(); 
zend_startup_modules(); 


zend_startup_extensions(); 


动态 库 就 是 在 php_ini_register_extensions() 这 个 函数 中 完成 的 注册 : 


€ 


Z/meiln/pbp Int. 
void php_ini register extensions(VvVoid ) 

// 注 册 zend 扩 展 

zend_llist_apply(&extension_lists.engine, php_load_zend_exte 
nsion_cb); 





// izh ohpi Æ 
I I 


zend_llist apply(&extension lists.functions, php_load php_ex 
tension_cb); 


zend_llist_destroy(&extension_lists.engine); 
zend_llist_destroy(&extension_lists.functions); 


extension_lists 是 一 个 链表 ， 保 存 着 根据 php.ini 中 定义 

的 extension=xxx.so 取 到 的 全 部 扩展 名 称 ， 其 中 engine 是 zend 扩 展 ，functions 
为 php 扩 展 ， 依 次 遍历 这 两 个 数组 然后 调 

用 php_load_php_extension_cb() 或 php_load_zend_extension_cb() #4 
各 个 扩展 的 加 载 : 





static void php_load_php_extension_cb(void *arg) 
{ 
#ifdef HAVE_LIBDL 
php_load_extension(*((char **) arg), MODULE PERSISTENT, 0); 
#endif 


} 


HAVE_LIBDL 这 个 宏 根 据 dlopen() 函数 是 否 存在 设置 的 : 


#Zend/Zend.m4 
AC_DEFUN( [LIBZEND_LIBDL CHECKS],T[ 

AC_CHECK_LIB(dl, dlopen, [LIBS="-]dl $LIBS"]) 
AC_CHECK_FUNC(dlopen, [AC_DEFINE(HAVE_LIBDL, 1,[ ])]) 


]) 


接着 就 是 最 关键 的 操作 了 ， php_load_extension() 


//ext/standard/dl.c 
PHPAPI int php load_extension(char *filename, int type, int star 
t_now) 
{ 
void *handle; 
char *libpath; 
zend_module_entry *module_entry; 
zend_module_entry *(*get_module)(void); 


// 调 用 dlopen 打 开 指 定 的 动态 连接 库 文件 : XxX. SO 
handle = DL_LOAD(libpath); 


//AAdlsym Soer moduleto éisch 
get module = (end module entry *(*)(void)) DL_FETCH_SYMBOL( 
handle, "get_module"); 


// 调 用 扩展 的 get_module( ) 有 函数 
module_ entry = oer module( ); 


// 检 查 扩 展 使 用 的 Zend api 是 否 与 当前 php 版 本 一 臻 

if (module_entry->zend_api != ZEND_MODULE_API_NO) { 
DL_UNLOAD(handle); 
return FAILURE; 


} 


module_entry->type = type; 

// 为 扩展 编号 

module_entry->module_number = zend next Tree module(); 
module_entry->handle = handle; 





if ((module_entry = zend_register_module_ex(module_entry)) = 
ANULO 
DL_UNLOAD (handle); 
return FAILURE; 


DL_LOAD() ` DL_FETCH_SYMBOL() 这 两 个 宏 在 linux 下 展开 后 就 是 : dlopen()、 
dlsym()， 所 以 上 面 过 程 的 实现 就 比较 直观 了 : 


e (1)dlopen() 打 开 so 库 文件 ; 

e (2)dlsym() 获 取 动 态 库 中 get_module() 函数 的 地 址 ， get_module() 是 每 
个 扩展 都 必须 提供 的 一 个 接口 ， 用 于 返回 扩展 zend_module_entry 结构 的 地 
址 ; 

e (3) 调 用 扩展 的 get_module() ， 获 取 扩 展 的 zend_module_entry 结构 ; 

e (4)zend api 版 本 号 检查 ， 比 如 php7 的 扩展 在 php5 下 是 无 法 使 用 的 ; 

e (5) 注 册 扩 展 ， 将 扩展 添加 到 module_registry 中 ， 这 是 一 个 全 局 
HashTable， 用 于 全 部 扩展 的 zend_ module_entry 结 构 ; 

e (6) 如 果 扩 展 提供 了 内 部 函数 则 将 这 些 函 数 注册 到 EG(function_table) 中 。 


完成 扩展 的 注册 后 ，PHP 将 在 不 同 的 执行 阶段 依次 调用 每 个 扩展 注册 的 当前 阶段 的 
hook gë Zi - 


7.3 扩展 的 构成 及 编译 
7.3.1 扩展 的 构成 


扩展 首先 需要 创建 一 个 zend_module_entry 结构 > 量 必须 是 全 局 变量 ， 
变量 名 必须 是 : 扩展 名 称 _ module_entry KEEN EE SCC 
供 了 哪些 功能 ， 换 名 话说 ， 一 个 扩展 可 以 只 包含 一 个 zend module entrv 结构 ， 


相当 于 定义 了 一 个 什么 功能 都 没有 的 扩展 。 


//zend modules bh 
struct _zend_module_entry { 
unsigned short size; //sizeof(zend_module_entry) 
unsigned int zend_api; //ZEND_MODULE_API_NO 
unsigned char zend_debug; // Æ% Gdebug 
unsigned char zts; // 是 否 开 局 线程 安全 
const struct _zend_ini_entry *ini_entry; 
const struct _zend_module_dep *deps; 
const char *name; // 扩 展 名 称 ， 不 能 重复 
const struct _zend_function_entry *functions; // 扩 展 提供 的 内 部 


int (*module_startup_func)(INIT_FUNC_ARGS); // 扩 展 初始 化 回调 部 
数 ，PHP_MINIT_FUNCTION 或 ZEND_MINIT_FUNCTION 定 义 的 有 函 老 

int (*module_shutdown_func)(SHUTDOWN_FUNC_ARGS); // 扩 展 关 闭 时 
回调 函数 

int (*request_startup_func)(INIT_FUNC_ARGS); // 请 求 开始 前 回调 函数 


int (*request_shutdown_func)(SHUTDOWN_FUNC_ARGS); // 请 求 结束 时 
回调 函数 

void (*info_func)(ZEND_MODULE_INFO_FUNC_ARGS); //php info% 7 
DEE AEE 

const char *version; // 版 本 





unsigned char type; 

void *handle; 

int module_number，// 扩 展 的 唯一 编号 
const char *build_id; 


图 vv = AA 


这 个 结构 包含 很 多 成 员 ， 但 并 不 是 所 有 的 都 需要 自己 定义 ， 经 常用 到 的 主要 有 下 面 
几 个 : 


e name: 扩展 名 称 ， 不 能 重复 

e functions: 扩展 定义 的 内 部 函数 entry 

e module_startup_func: PHP 在 模块 初始 化 时 回调 的 hook 函 数 ， 可 以 使 扩展 介 
入 module startup 阶段 

e module_shutdown_func: 在 模块 关闭 阶段 回调 的 函数 

e request_startup_func: 在 请 求 初 始 化 阶段 回调 的 函数 


e Teguest shutdown_func: 在 请 求 结 束 阶 段 回调 的 函数 
e info_func: php_info() 函 数 时 调用 ， 用 于 展示 一 些 配 置 、 运 行 信息 
e version: 扩展 版 本 


余 了 上 面 这 些 需 要 手动 设置 的 成 员 ， 其 它 部 分 可 以 通 
过 STANDARD_MODULE_HEADER ` STANDARD_MODULE_PROPERTIES 宏 统一 设置 ， 
扩展 提供 的 内 部 函 EE 用 到 的 部 分 ， 几 乎 所 有 
i 分 实现 的 。 有 了 这 个 结构 还 需要 提供 一 个 接口 来 获取 这 个 结 
构 变 量 ， sw Ke ， 扩展 中 通 
过 ZEND_GET_MODULE(extension_name) 完成 这 个 接口 的 定义 : 


//zend_API.h 
#define ZEND GET MODULE(name) \ 

BEGIN_EXTERN_C()\ 

ZEND_DLEXPORT zend module entry *get module(void) { return & 
name## module_entry; }\ 

END_EXTERN_C() 


展开 后 可 以 看 到 ， EE Mere ， 返回 扩展 
zend_module 告 构 的 地 址 ， 这 就 是 为 什么 这 个 结构 的 变量 名 必须 是 扩展 名 称 
_module_entry 这 种 格式 的 原因 。 


有 了 扩展 的 zend_module GE SE 以 及 获取 这 
写 完 成 了 ， 只 是 这 这 个 扩展 目 前 还 么 都 干 不 了 


#include "php.h" 
#include "php_ini.h" 
#include "ext/standard/info.h" 


zend_module_entry mytest_module_entry = { 
STANDARD_MODULE_HEADER, 
"mytest", 
NHL Z/mtest- TupnGEtons, 
NULL, //PHP_MINIT(mytest), 
NULL, //PHP_MSHUTDOWN (mytest), 
NULL, //PHP_RINIT(mytest), 
NULL, //PHP_RSHUTDOWN (mytest), 
NULL, //PHP_MINFO(mytest), 
e KEES CA 
STANDARD MODULE PROPERTIES 

}; 


ZEND_GET_MODULE (mytest) 
编译 、 安 装 后 执行 php -m 就 可 以 看 到 my_test 这 个 扩展 了 。 


7.3.2 编译 工具 


PHP 提 供 了 几 个 脚本 工具 用 于 简化 扩展 的 实现 ` ext_skel、phpize、php-config， 后 
面 两 个 脚本 主要 配合 autoconf、automake 生 成 Makefile。 在 介绍 这 几 个 工具 之 前 ， 
我 们 先 看 下 PHP 安 装 后 的 目录 结构 ， 因 为 很 多 脚本 、 配 置 都 放置 在 安装 后 的 目录 

中 ， 比 如 PHP 的 安装 路 径 为 : /usr/local/php7， 则 此 目录 的 主要 结构 : 


Vi 


|---bin //php 编 译 生成 的 二 进 制程 序 目录 
|---php 
|---phpize 
|---php-config 
ee 
|---etc // 一 些 sapi 的 配置 
|---include //php 源 码 的 头 文件 
|---php 
|---main //PHP 中 的 头 文件 
---Zend //Zend 头 文件 
-- -TSRM //TSRM 头 文件 


---ext // 扩 展 头 文件 

---Sapi //SAPI 头 文件 

|---include 

|---lib // 依 赖 的 so 库 
|---php 

|---extensions // 扩 展 so 保 存 目 录 

|---build // 编 译 时 的 工具 、m4 配 置 等 ， 编 写 扩 展 是 会 用 到 
|---acinclude.m4 //PHP 自 定义 的 autoconf 宏 
|---libtool.m4 //libtool 定 义 的 autoconf 宏 ，aci 

nclude .m4、1ibtool.m4 会 被 合成 aclocal.m4 

|---phpize.m4 //PHP 核 心 configure.in 配 置 


| 

| EE 
| ee 

| |---php 

| |---sbin //SAPI 编 译 生成 的 二 进 制程 序 ，php-fpm 会 放 在 这 
| |---var //log、run 日 志 


7.3.2.1 ext_skel 


这 个 脚本 位 于 PHP 源 码 /ext 目 录 下 ， EEN e CES) 
发 者 快速 生成 一 个 规范 的 扩展 结构 ， 可 以 通过 以 下 命令 生成 一 个 扩展 结 


./ext_skel --extname= 扩 展 名 称 


执行 完 以 后 会 在 ext 目 录 下 新 生成 一 个 扩展 目录 ， 比 如 extname 是 mytest， 则 将 生成 
以 下 文件 : 


---mytest 





|---config.m4 //autoconf 规 则 的 编译 配置 文件 
---config.w32 //Windows 环 境 的 配置 
-- -CREDITS 


- - -EXPERIMENTAL 
---include 
---mytest.c 





---php_mytest.h 





---mytest.php // 用 于 在 PHP 中 测试 扩展 是 否 可 用 ， 
---tests // 测 试用 例 ， 执 行 mMake test 时 将 执行 、 验 十 这些 用 例 
| ---001.phpt 


这 个 脚本 主要 生成 了 编译 需要 的 配置 以 及 扩展 的 基本 结构 ， 初 步 生 成 的 这 个 扩展 可 
以 成 功 的 编译 、 人 安装、 使 用 ， 实 际 开发 中 我 们 可 以 使 用 这 个 脚本 生成 一 个 基本 结 
构 ， 然 后 根据 具体 的 需要 逐步 完善 。 


7.3.2.2 php-config 


这 个 脚本 为 PHP 源 码 中 的 /script/php-config.in，PHP 安 装 后 被 移 到 安装 路 径 的 /bin 目 
录 下 ， 并 重 命名 为 php-config， 这 个 脚本 主要 是 获取 PHP 的 安装 信息 的 ， 主 要 有 : 


PHP 安 装 路 径 
PHP 版 本 
PHP 源 码 的 头 文 件 目 录 : main、Zend、ext、TSRM 中 的 头 文 件 ， 编 写 扩 展 时 


会 用 到 这 些 头 文件 ， 这 些 头 文件 保存 在 PHP 安 装 位 置 /include/php 目 录 下 
LDFLAGS : 外 部 库 路 径 ， 比 如 : -L/usr/bib -L/usr/local/lib 
依赖 的 外 部 库 : 告诉 编译 器 要 链接 哪些 文件 ， -lcrypt -lresolv - 
lcrypt 等 等 

扩展 存放 目录 : 扩展 .so 保存 位 置 ， 安 装 扩 展 make install 时 将 安装 到 此 路 径 下 
编译 的 SAPI : 如 cli、fpm、cgi 等 

PHP 编 译 参 数 : 执行 .Jconfigure 时 带 的 参数 


这 个 脚本 在 编译 扩展 时 会 用 到 ， 执 行 ./configure --with-php-config=xxx 生 
成 Makefile 时 作为 参数 传 入 即 可 ， 它 的 作用 是 提供 给 configure.in 获 取 上 面 几 个 配 


置 ， 


生成 Makefile ° 


7.3.2.3 phpize 


这 个 脚本 主要 是 操作 复杂 的 autoconf/automake/autoheader/autolocal 等 系列 命令 ， 
用 于 生成 configure 文 件 ，GNU auto 系 列 的 工具 众多 ， 这 里 简单 介绍 下 基本 的 使 
用 : 


(1)autoscan ` 在 源码 目录 下 扫描 ， 生 成 configure.scan， 然 后 把 这 个 文件 重 名 为 为 
configure.in， 可 以 在 这 个 文件 里 对 依赖 的 文件 、 库 进行 检查 以 及 配置 一 些 编译 参数 


大 和 


Fo 


(2)aclocal : automake ? SI SZ T vi Sconfioure nä A € .m4 ie E PIEM > 3 
宏 必 须 定 义 在 aclocal.m4 中 ， 否 则 将 无 法 被 autoconf 识 别 ，aclocal 可 以 根据 
configure.in 自 动 生 成 aclocal.m4， 另 外 ，autoconf 提 供 的 特性 不 可 能 满足 所 有 的 需 
求 ， 所 以 autoconf 还 支持 自 定 义 宏 ， 用 户 可 以 在 acinclude.m4 中 定义 自己 的 宏 ， 然 
后 在 执行 aclocal 生 成 aclocal.m4 时 也 会 将 acinclude.m4 加 载 进 去 。 


(3)autoheader ` 它 可 以 根据 configure.in、aclocal.m4 生 成 一 个 C 语 言 "define" 声 明 
的 头 文件 模板 (config.h.in) 供 configure 执 行 时 使 用 ， 比 如 很 多 程序 会 通过 configure 

提供 一 些 enable/disable 的 参数 ， 然 后 根据 不 同 的 参数 决定 是 否 开局 某 些 选项 ， 这 

种 就 可 以 根据 编译 参数 的 值 生成 一 个 define 宏 ， 比 如 : --enabled-xxx 生 

成 #define ENABLED XXX 1 ， 和 否则 默认 生成 #define ENABLED XXX 0 ， 代 码 

里 直接 使 用 这 个 宏 即 可 。 比 如 configure.in 文 件 内 容 如 下 : 


AC_PREREQ([2.63]) 
AC_INIT([FULL-PACKAGE-NAME], [VERSION], [BUG-REPORT-ADDRESS]) 


AC_CONFIG_HEADERS( [config.h] ) 


AC_ARG_ENABLE(xxx, "--enable-xxx if enable xxx", [ 
AC_DEFINE([ENABLED_XXX], [1], [enabled xxx]) 
]， 
[ 
AC_DEFINE([ENABLED_XXX], [0], [disabled xxx]) 


] ) 


AC_OUTPUT 


执行 autoheader 后 将 生成 一 个 config.h.in 的 文件 ， 里 面包 含 #undef 
ENABLED_XXX ， 最 终 执 行 ./configure --enable-xxx 后 将 生成 一 个 config.h 文 
件 ， 包 含 #define ENABLED XXX 1 ° 


(4)autoconf ` 将 configure.in 中 的 宏 展开 生成 configure、config.h， 此 过 程 会 用 到 
aclocal.m4 中 定义 的 宏 。 


(5)automake ` 将 Makefile.am 中 定义 的 结构 建立 Makefile.in， 然 后 configure 脚 本 
将 生成 的 Makefile.in 文 件 转换 为 Makefile 。 


各 步骤 之 间 的 转化 关系 如 下 图 : 


(autoscan ) 
source code configure.scan acinclude.m4 








编写 PHP 扩 展 时 并 不 需要 操作 上 面 全 部 的 步骤 ，PHP 提 供 了 两 个 编辑 好 的 配置 : 
configure.in、acinclude.m4， 这 两 个 配置 是 从 PHP 人 安装 路 径 /lib/php/build 目 录 下 的 
phpize.m4、acinclude.m4 复 制 生 成 的 ， 其 中 configure.in 中 定义 了 一 些 PHP 内 核 相 
关 的 配置 检查 项 ， 另 外 这 个 文件 会 include 每 个 扩展 各 自 的 配置 :config.m4， 所 以 编 
写 扩展 时 我 们 只 需要 在 config.m4 中 定义 扩展 自己 的 配置 就 可 以 了 ， 不 需要 关心 依赖 
的 PHP 内 核 相 关 的 配置 ， 在 扩展 所 在 目录 下 执行 phpize 就 可 以 生成 扩展 的 
configure、config.h 文 件 了 。 


configure.in(phpize.m4) : 


AC_PREREQ(2.59) 
AC_INIT(config.m4) 

#- -with-php-config 参 数 

PHP_ARG_WITH(php-config,, 

[ --with-php-config=PATH Path to php-config [php-config]], php 
-config, no) 


PHP_CONFIG=$PHP_PHP_CONFIG 


# 加 载 扩 展 配置 


sinclude(config.m4) 
AC_CONFIG_HEADER(config.h) 


AC_OUTPUT( ) 


phpize 中 的 主要 操作 : 
(1)phpize_check_configm4: 检查 扩展 的 config.m4 是 否 存 在 。 


(2)phpize_check_build_files: 检查 php 安 装 路 径 下 的 lib/php/build/， 这 个 目录 下 包 
含 PHP 自 定义 的 autoconf 宏 文件 acinclude.m4 以 及 libtool ; 检查 扩展 所 在 目录 。 


(3)phpize_print_api_numbers: 输出 PHP Api Version ` Zend Module Api No ` 


` 
> 


Zend Extension Api No 信息 。 


phpize_get_api_numbers() 
{ 
# extracting API NOs: 
PHP_API_VERSION=`grep '#define PHP_API_VERSION' $includedir/ma 
in/php.h|$SED 's/#define PHP_API_VERSION//'` 
ZEND_MODULE_API_NO= grep '#define ZEND_MODULE_API_NO' $include 
dir/Zend/zend_modules.h|$SED 's/#define ZEND MODULE_ API_NO//'. 
ZEND_EXTENSION_API_NO= grep '#define ZEND EXTENSION_ API_NO' $i 
ncludedir/Zend/zend_extensions.h|$SED 's/#define ZEND_EXTENSION_ 
API_NO0O//'` 
} 


(4)phpize_copy files: 将 PHP 安 装 位 置 /ib/php/build 目 录 下 的 mkdep.awk 
scan_makefile_in.awk shtool libtool.m4 四 个 文件 找到 扩展 的 build 目 录 下 ， 然 后 将 
acinclude.m4 Makefile.global config.sub config.guess ltmain.sh run-tests*.php X 4} 
找到 扩展 根 目 录 ， 最 后 将 acinclude.m4、buildy/libtool.,m4 合 并 到 扩展 目录 下 的 
aclocal.m4 文 件 中 。 


test -d build || mkdir build 


(cd "$phpdir" Së cp $FILES_BUILD "$builddir"/build) 
(cd "$phpdir" && cp $FILES "$builddir") 
#acinclude.m4、1Libtool1.m4 合 并 到 aclocal.m4 
(cd "$builddir" && cat acinclude.m4 ./build/libtool.m4 > acloc 
al.m4) 
} 


(5)phpize_replace_prefix: 将 PHP 安 装 位 置 /lib/php/build/phpize.m4 拷 贝 到 扩展 目 
录 下 ， 将 文件 中 的 prefix 替 换 为 PHP 安 装 路 径 ， 然 后 重 命名 为 configure.in。 


phpize replace prefix() 
{ 
$SED \ 
-e "s#/usr/local/php7#$prefix#" \ 
< "$phpdir/phpize.m4" > configure.in 


} 


(6)phpize_check_shtool: 检查 /build/shtool。 
(7)phpize_check_autotools: 检查 autoconf、autoheader。 


(8)phpize_autotools 执行 autoconf 生 成 configure， 然 后 再 执行 autoheader 生 成 
config.h ° 


7.3.3 编写 扩展 的 基本 步 


编写 一 个 PHP 扩 展 主 要 分 为 以 下 几 步 : 


e 通过 ext 目 录 下 ext_skel 脚 本 生成 扩展 的 基本 框架 : ./ext_skel -- 


extname ; 
e 修改 config.m4 配 置 : 设置 编译 配置 参数 、 设 置 扩展 的 源 文件 、 依 赖 库 /函数 检 
查 等 等 ; 


e 编写 扩展 要 实现 的 功能 : 按照 PHP 扩 展 的 格式 以 及 PHP 提 供 的 API 编 写 功能 ; 

e 生成 configure : 扩展 编写 完成 后 执行 phpize 脚 本 生成 configure 及 其 它 配 置 文 
件 ; 

e 编译 & 安 装 : ./configure、make、make install， 然 后 将 扩展 的 .So 路 径 添加 到 
php.ini 中 。 


就 可 以 在 PHP 中 使 用 这 个 扩展 了 。 


7.3.4 config.m4 


config.m4 是 扩展 的 编译 配置 文件 ， 它 被 include 到 configure.in 文 件 中 ， 最 终 被 
autoconf 编 译 为 configure， 编 写 扩 展 时 我 们 只 需要 在 config.m4 中 修改 配置 即 可 ， 一 
个 简单 的 扩展 配置 只 需要 包含 以 下 内 容 : 


PHP_ARG_WITH( 扩 展 名 称 ，for mytest Support, 
Make sure that the comment is aligned: 
[ --with- 扩 展 名 称 Include xxx support]) 


if test "$PHP_ 扩展 名 称 " != "no"; then 

PHP_NEW_EXTENSION( 扩 展 名 称 ， 源码 文件 列表 ，$ext_shared,， -DZEND_ 
ENABLE_STATIC_TSRMLS_CACHE=1) 
Fi 





PHP 在 acinclude.m4 中 基于 autoconf/automake 的 宏 封装 了 很 多 可 以 直接 使 用 的 
宏 ， 下 面 介绍 几 个 比较 常用 的 宏 : 


(1)PHP_ARG WITH(arg_name,check message,help info): 定义 一 个 --with- 
feature[=arg] 这 样 的 编译 参数 ， 调 用 的 是 autoconf 的 ACARG_WITH ， ee 
5 个 参数 ， 常 用 的 是 前 三 个 ， 分 别 表示 : 参数 名 、 执 行 ./configure 是 展示 信息 、 执 

行 --help 时 展示 信息 ， 第 4 个 参数 为 默认 值 ， 如 果 不 定 义 默认 为 mo”"， 通 过 这 个 宏 定 
义 的 参数 可 以 在 config.m4 中 通过 `$PHP 参 数 名 (大 写 ) 访 问 ， 比 如 : 


PHP_ARG_WITH(aaa, aaa-configure, help aa) 


(2)PHP_ARG_ENABLE(arg_name,check message,help info): 定义 一 个 -- 
enable-feature[=arg] 或 --disable-feature 参数 ， --disable- 

feature 等 价 于 --enable-feature=no ， 这 个 宏 与 PHP_ARG WITH 类 似 ， 通 常 
情况 下 如 果 配 置 的 参数 需要 额外 的 arg 值 会 使 用 PHP_ARG_WITH， 而 如 果 不 需要 
arg 值 ， 只 用 于 开关 配置 则 会 使 用 PHP_ARG ENABLE 。 


(3)AC_MSG CHECKING()/AC_MSG RESULT()/AC_MSG_ ERROR!(): 
./configure 时 输出 结果 ， 其 中 error 将 会 中 断 configure 执 行 。 


(4)AC_DEFINE(variable, value, [description]): 定义 一 个 安 ， 比 
4e : AC DEFINE(IS_DEBUG, 1, []) ， 执 行 autoheader 时 将 在 头 文件 中 生 
成 : #define IS_DEBUG 1 ° 


(5)PHP_ADD_INCLUDE(path): 添加 include 路 径 ， : gcc - 
Iinclude_dir > #include "file"; 将 先 在 通过 -| 指定 的 目录 下 查找 ， 扩 展 引 用 
了 外 部 库 或 者 扩展 下 分 了 多 个 目录 的 情况 下 会 用 到 这 o 


(6)PHP_CHECK_LIBRARY (library, function [, action-found [, action-not- 
found [, extra-libs]]]): 检查 依赖 的 库 中 是 否 存在 需要 的 function > action-found X # 
在 时 执行 的 动作 ， pie 不 存在 时 执行 的 动作 ， 上 比如 扩展 里 使 用 到 线程 
pthread， 检 查 pthread_create()， 如 果 没 找到 则 终止 ./configure 执 行 : 


PHP_ADD_INCLUDE(pthread, pthread create, [], I 
AC_MSG_ ERROR( [not find pthread create() in lib pthread]) 
]) 


(7)AC_CHECK_FUNC(function, [action-if-found], [action-if-not-found]): 检查 
函数 是 否 存 在 。 (8)PHP_ADD_LIBRARY_WITH_PATH($LIBNAME, 
$XXX_DIR/$PHP_LIBDIR, XXX_SHARED_LIBADD): 添加 链接 库 。 


(9)PHP_NEW EXTENSION(extname, sources [, shared [, sapi_class [, extra- 
cflags [, cxx [, zend_ext]]]]]): 注册 一 个 扩展 ， 添 加 扩展 源 文件 ， 确 定 此 扩展 是 动 
态 库 还 是 静态 库 ， 每 个 扩展 的 config.m4 中 都 需要 通过 这 个 宏 完成 扩展 的 编译 配置 


更 多 autoconf 及 PHP 封 装 的 宏大 家 可 以 在 用 到 的 时 候 再 自行 检索 ， 同 时 ext 目 录 下 有 
大 量 的 示例 可 供 参 考 。 


7.4 4I F AA 


PHP 为 扩展 提供 了 5 个 钓 子 函数 ，PHP 执 行 到 不 同 阶 段 时 回调 各 个 扩展 定义 的 钓 子 
函数 ， 扩 展 可 以 通过 这 些 钓 子 函数 介入 到 PHP 生 命 周 期 的 不 同 阶段 中 去 ， 这 些 钧 子 
函数 的 定义 非常 简单 ，PHP 提 供 了 对 应 的 宏 ， 定 义 完成 后 只 需要 设 

ZS zend_module_entry 对 应 的 函数 指针 即 可 。 


前 面 已 经 介绍 过 PHP 生 命 周 期 的 几 个 阶段 ， 这 几 个 钧 子 函 数 执行 的 先后 顺序 : 
module startup -> request startup -> 编译 、 执 行 -> request shutdown -> post 
deactivate -> module shutdown 。 


7.4.1 module _startup func 


这 个 函数 在 PHP 模 块 初 始 化 阶段 执行 ， 通 常情 况 下 ， 此 过 程 只 会 在 SAPI 局 动 后 执行 
一 次 。 这 个 阶段 可 以 进行 内 部 类 的 注册 ， 如 果 你 的 扩展 提供 了 类 就 可 以 在 此 函数 中 
完成 注册 ; 除了 类 还 可 以 在 此 函数 中 注册 扩展 定义 的 常量 ; 另外 ， 扩 展 可 以 在 此 阶 
段 覆 盖 PHP 编 译 、 执 行 的 两 个 函数 指针 ` zend_compile file、zend evecute ex， 
从 而 可 以 接管 PHP 的 编译 、 执 行 ，opcache 的 实现 原理 就 是 替换 了 
zend_compile file， 从 而 使 得 PHP 编 译 时 调用 的 是 opcache 自 己 定义 的 编译 函数 ， 
对 编译 后 的 结果 进行 缓存 。 


此 钩子 函数 通过 PHP_MINIT_FUNCTION() 或 ZEND_MINIT_FUNCTION() 宏 完 成 定 
L: 


PHP_MINIT_FUNCTION(extension_name) 
{ 


展开 后 : 


zm_startup_extension_name(int type, int module_number ) 


í 


最 后 通过 PHP_MINIT() 或 ZEND_MINIT() 宏 将 zend_module_entry 的 
module_startup_func 设 置 为 上 面 定 义 的 防 数 。 


#define PHP_MINIT ZEND_MODULE_STARTUP_N 
#define ZEND MINIT ZEND_MODULE_STARTUP_N 
#define ZEND_MODULE_STARTUP_N(module) zm_startup_##module 


7.4.2 request_startup_func 

此 函数 在 编译 、 执 行 之 前 回调 ，fpm 模 式 下 每 一 个 http 请 求 就 是 一 个 request， 脚 本 
执行 前 将 首先 执行 这 个 函数 。 如 果 你 的 扩展 需要 针对 每 一 个 请 求 进行 处 理 则 可 以 设 
这 个 函数 ， 如 : 对 请 求 进 行 filter、 根 据 请 求 ijp 获 取 所 在 城市 、 对 请 求 /返回 数据 加 
蜜 等 。 此 函数 通过 PHP_RINIT_FUNCTION() 或 ZEND_RINIT_FUNCTION() 宏 定 


PHP_RINIT_FUNCTION(extension_name ) 
{ 


展开 后 : 


zm_activate_extension_name(int type, int module_number ) 


{ 


获取 有 函数 地 址 的 宏 : PHP_RINIT() 或 ZEND_RINIT() 


#define PHP_RINIT ZEND_MODULE_ACTIVATE_N 
#define ZEND_RINIT ZEND_MODULE_ACTIVATE_N 


#define ZEND_MODULE_ACTIVATE_N(module) zm_activate_##module 


7.4.3 request shutdown func 


此 函数 在 请 求 结束 时 被 调用 ， 通 
过 PHP_RSHUTDOWN_FUNCTION() 或 ZEND_RSHUTDOWN_FUNCTION() 宏 定义 : 


PHP_RSHUTDOWN_FUNCTION(extension_name ) 
{ 


函数 地 址 通过 PHP_RSHUTDOWN() 或 ZEND_RSHUTDOWN( ) 获取 : 


#define PHP_RSHUTDOWN ZEND_MODULE_DEACTIVATE_N 
#define ZEND_RSHUTDOWN ZEND_MODULE_DEACTIVATE_N 


#define ZEND_MODULE_DEACTIVATE_N(module) zm_deactivate_##modu 
le 


7.4.4 post deactivate func 


这 个 函数 比较 特殊 ， 一 般 很 少 会 用 到 ， 实 际 它 也 是 在 请 求 结束 之 后 调用 的 ， 它 比 
request_ shutdown_func 更 晚 执行 : 


void php_request_shutdown(void *dummy ) 


{ 
的 redquest_shutdown_func 
Re WEE activated)) { 
zend_deactivate_modules(); 
} 
TEA JJa] Oh. A hh D header 
php_output_deactivate( ) ， 
zend_deactivate(); 
/ Yal SL d /长 的 DoSst deactivate func 
Zend post deactivate modules: 
} 


从 上 面 的 执行 顺序 可 以 看 出 ，request_shutdown func、post_deactivate _ func 是 先 
后 执行 的 ， 此 函数 通过 ZEND_MODULE_POST_ZEND_DEACTIVATE_D() ZZ 
义 ， ZEND_MODULE_POST_ZEND_DEACTIVATE_N() 获取 函数 地 址 : 








#define ZEND_MINIT ZEND_MODULE_STARTUP_N 
#define ZEND_MODULE_POST_ZEND_DEACTIVATE_N(module) zm_post_zend 
deactivate_##module 





7.4.5 module_shutdown_func 


模块 关闭 阶段 回调 的 函数 ， 与 module_startup_func 对 应 ， 此 阶段 主要 可 以 进行 一 些 
资源 的 清理 ， 通 
过 PHP_MSHUTDOWN_FUNCTION() 或 ZEND_MSHUTDOWN_FUNCTION() 定义 : 


PHP_MSHUTDOWN_FUNCTION(extension_name ) 
{ 


通过 PHP_MSHUTDOWN() 或 ZEND_MSHUTDOWN() 获取 有 函数 地 址 : 


#define PHP_MSHUTDOWN ZEND_MODULE_SHUTDOWN_N 
#define ZEND_MSHUTDOWN ZEND_MODULE_SHUTDOWN_N 
#define ZEND_MODULE_SHUTDOWN_N(modujle) zm_shutdown_##module 


7.4.6 小 节 LnŽ mA TIARE L iT RREN > 4 A gdb Ri At 
可 以 根据 展开 后 实际 的 函数 名 称 设置 断 点 。 这 些 钓 子 实际 已 经 为 扩展 构造 了 一 个 整 
体 的 框架 ， 通 过 这 几 个 钧 子 扩展 已 Rd e ， 后 面 我 们 介绍 的 很 多 内 容 
都 是 在 这 几 个 函数 中 完成 的 ， 比 如 内 部 类 的 注册 、 常 量 注册 、 资 源 注 册 等 。 如 果 扩 
展 名 称 为 mytest， 则 最 终 定义 的 扩展 : 


PHP_MINIT_FUNCTION(mytest ) 
{ 


PHP_RINIT_FUNCTION(mytest) 
{ 


PHP_RSHUTDOWN_FUNCTION(mytest ) 
{ 


PHP_MSHUTDOWN_FUNCTION(mytest ) 
{ 


zend_module_entry mytest_module_entry = { 
STANDARD_MODULE_HEADER, 
“mytest 
NULL, //mytest_functions 
PHP_MINIT(mytest), 
PHP_MSHUTDOWN (mytest), 
PHP_RINIT(mytest), 
PHP_RSHUTDOWN (mytest), 
NULL, //PHP_MINFO(mytest ) 
E GC 
STANDARD_MODULE_PROPERTIES 


A 


ZEND_GET_MODULE (mytest) 


使 用 C 语 言 开 发 程序 时 经 常 A a 

过 的 一 个 问题 : 线程 安全 ，PHP 设 计 了 TSRM ( 即 : 线程 安全 资源 管理 器 ) ER 
决 这 个 问题 ， 内 核 中 频繁 使 用 到 的 EG、CG 等 都 是 根据 是 否 开启 ZTS 封 装 的 宏 ， 同 
样 的 ， 在 扩展 中 也 需要 必须 按照 TSRM 的 规范 定义 全 局 变量 ， 除 非 你 的 扩展 不 支持 
多 线程 的 环境 。 


da 种 存储 方式 : 每 个 扩展 将 自己 所 有 的 全 局 变量 统一 
定义 在 一 个 结构 体 中 ， 然 后 将 这 个 结构 体 注册 到 TSRM 中 ， 这 样 扩展 就 可 以 像 使 用 
EG、CG 那 样 访问 这 Geo 


这 个 结构 体 的 定义 通 
过 ZEND_BEGIN_MODULE_GLOBALS(extension_name) ` ZEND_END_MODULE_GLOB 
ALS(extension_name) 两 个 宏 完成 ， 这 两 个 宏 必须 成 对 出 现 ， 中 间 定 义 扩 展 需 要 
的 全 局 变量 即 可 。 


ZEND_BEGIN MODULE GLOBALS(mytest) 
zend_long open Cache: 
HashTable class_table; 

ZEND_END_MODULE_GLOBALS(mytest) 


展开 后 实际 就 是 个 普通 的 struct : 


typedef struct _zend_mytest_globals { 
zend_long open_cache; 
HashTable class_table; 
}zend_mytest_globals; 


Zi ve 


ZS ëlz tat? e 如 果 未 开启 线程 安全 
直接 创建 普 Geer 如 果 开 局 线程 安 Eegen 到 
个 唯一 的 资源 id， 这 个 操作 也 由 专门 的 宏 来 完 

成 : ZEND_DECLARE_MODULE_GLOBALS(extension_name) ， 展 开 后 


/ZTS : 此 时 只 是 定义 资源 ijd， 并 没有 向 TSRM 注 册 
ts_rsrc_id mytest_ globals_id; 


/ E 上 上 
LEI 


N 


zend_mytest_globals mytest_globals; 


需要 定义 一 个 像 EG、CG 那 样 的 宏 用 于 访 ee 资源 结构 体 ， 步 将 
ep ZEND_MODULE_GLOBALS_ACCESSOR() 宏 完 


#define MYTEST_G(v) ZEND MODULE GLOBALS ACCESSOR(mytest, v) 


看 起 来 是 不 是 跟 EG、CG 的 定义 非常 像 ? 了 这 个 宏 展 开 后 : 


TAIS 
#define MYTEST_G(v) ZEND_TSRMG(mytest_globals_id, zend_mytest_gl 
obals *, v) 


X 


#define MYTEST_G(v) (mytest_globals.v) 


接 下 来 就 可 以 在 扩展 中 通过 : MYTEST_G(opene_cache) ` 
MYTEST_G(class ` Geen 告 构 体 成 员 进 行 读 写 了 。 通 常会 把 这 个 全 局 资源 结构 体 
及 结构 体 的 访问 宏 定 义 在 头 文 件 中 ， 然 后 把 全 局 变量 的 声明 放 到 源 文件 中 : 


//php_mytest.h 


#define MYTEST_G(v) ZEND MODULE GLOBALS ACCESSOR(mytest, v) 


ZEND_BEGIN MODULE GLOBALS(mytest) 
zend_long open Cache: 
HashTable class_table; 

ZEND_END_MODULE_GLOBALS(mytest) 


//mytest.c 


ZEND_DECLARE_MODULE_GLOBALS(mytest) 


在 一 个 扩展 中 并 不 是 只 能 定义 一 个 全 局 变量 结构 ， 数 目 是 不 限制 的 


7.5.2 php.ini 配 置 


php.ini 是 PHP 主 要 的 配置 文件 ， 解 析 时 PHP 将 在 这 些 地 方 依次 查找 该 文件 : 当前 工 
作 目 录 、 环 境 变量 PHPRC 指 定 目录 、 编 译 时 指定 的 路 径 ， 在 命令 行 模式 下 ， 
php.ini 的 查找 路 径 可 以 用 -c 参数 替代 。 


该 文件 的 语法 非常 简单 : 配置 标识 符 = 值 。 空 白字 符 和 用 分 号 "开始 的 行 被 急 
略 ，[xxX] 行 也 被 忽略 ; 配置 标识 符 大 写 敏感 ， 通 常会 用 '' 区 分 不 同 的 节 ; 值 可 以 是 
数字 、 字 符 串 、PHP 常 量 、 位 运算 表达 式 。 


关于 php.ini 的 解析 过 程 本 节 不 作 介绍 ， 只 从 应 用 的 角度 介绍 如 何在 一 个 扩展 中 获取 
一 个 配置 项 ， 通 常会 把 php.ini 的 配置 映射 到 一 个 变量 ， 从 而 在 使 用 时 直接 读 取 那 个 
变量 ， 也 就 是 把 所 有 的 配置 转化 为 了 C 语 言 中 的 变量 ， 扩 展 中 一 般 会 把 php.ini 配 置 
映射 到 上 一 节 介绍 的 全 局 变量 (资源 )， 要 想 实 现 这 个 转化 需要 在 扩展 中 为 每 一 项 配 
置 设置 映射 规则 : 


PHP_INI_BEGIN() 


PHP_INI_END(); 


这 两 个 宏 实际 只 是 把 各 配置 规则 组 成 一 个 数组 ， 配 置 规则 通 
过 STD_PHP_INI_ENTRY() 设置 : 


STD_PHP_INI_ENTRY(nNname, default_ value,modifiable,on modify,proper 
ty_name, struct_ type,struct_ptr) 


e name: php.ini 中 的 配置 标识 符 

e default_value: 默认 值 ， 注意 不 管 转化 后 是 什么 类 型 ， 这 里 必须 设置 为 字符 串 

e modifiable: 可 修改 等 级 ，ZEND_INI_USER 为 可 以 在 php 脚 本 中 修改 ， 
ZEND_INI_SYSTEM 为 可 以 在 php.ini 中 修改 ， 还 有 一 个 ZEND_INI_PERDIR ， 
ZEND_INI_ALL 表 示 三 种 都 可 以 ， 通 常情 况 下 设置 为 ZEND_INI_ALL、 
ZEND_INI_SYSTEM 即 可 

e on_modify: 函数 指针 ， 用 于 指定 发 现 这 个 配置 后 赋值 处 理 的 函数 ， 默 认 提 供 
了 5 个 : OnUpdateBool ` OnUpdateLong ` OnUpdateLongGEZero ` 
OnUpdateReal ` OnUpdateString ` OnUpdateStringUnempty > 44 T 2 Å Æ 
3L 


e property_name: 要 映射 到 的 结构 struct_ type 中 的 成 员 
e Struct type: 映射 结构 的 类 型 
e Struct_ptr: 映射 结构 的 变量 地 址 ， 发 现 配 置 后 会 


除了 STD_PHP_INIL_ENTRY( 这 个 安 o 
宏 STD_PHP_INI BOOLEAN() ， 用 法 一 致 ， 差 别 在 于 后 者 会 自动 把 配置 添加 到 
phpinfo() 输 出 中 。 


宏 展 开 后 生成 一 个 zend_ini_entry_def 结构 : 


typedef struct ` zend ini entry derf 

const char *name; 

int (*on_modify)(zend_ini_entry *entry, zend_string *new_val 
ue, void *mh_arg1, void *mh_arg2, void *mh_arg3, int stage); 

void *mh_arg1; // 映 射 成 员 所 在 结构 体 的 偏 移 :offsetof(type, member- 
designator ) 取 到 

void *mh_arg2; // 要 映射 到 结构 的 地 址 

void *mh_arg3; 

const char *Value;// 默 认 值 

void (*displayer)(zend_ini_entry *ini_entry, int type); 

int modifiable; 


uint name_length; 
uint value_length; 
} zend_ini_entry_def; 


比如 将 php.ini 中 的 mytest.opene_cache 值 映 射 到 MYTEST_G() 结构 中 的 
open_cache， 类 型 为 zend long， 默 认 值 109， 则 可 以 这 么 定义 : 


PHP_INI_BEGIN() 
STD_PHP_INI_ENTRY("mytest.open_cache", "109", PHP_INI_ALL, O 


nUpdateLong, open Cache, zend_mytest_globals, mytest_globals) 
PHP_INI_END(); 


property_name 设 置 的 是 要 映射 到 的 结构 成 员 mytest_globals->open_cache ， 
Zzend_mytest_globals、mytest_globals 都 是 宏 展 开 后 的 实际 值 ， 前 者 是 结构 体 类 
型 ， 后 者 是 具体 分 配 的 变量 ， 上 面 的 定义 展开 后 : 


static const zend_ini_entry_def ini entries[] = { 


d 





"mytest open Cache", 
OnUpdateLong, 
(void *) Xtoffsetof(zend mytest globals, open cache), // 
获取 成 员 在 结构 体 中 的 内 存 偏 移 
(void*)&mytest_globals, 
NULL, 
"109", 
NULL, 
PHP_INI_ALL, 
sizeof ("mytest.open_cache")-1, 
sizeof ("109")-1 
}, 
S NUL NU, NULTE NULA "NEE NEE REEL 88 "Ee 


xtoffsetof() 这 个 宏 在 linux 环 境 下 展开 就 是 offsetof() ， 用 来 获取 一 个 
结构 体 成 员 的 offset， 比 如 : 


Include 


Include 


typedef struct{ 
int id; 

char *name; 
}my_struct; 


int main(void) 

{ 

printf("%d\n", (void*)offsetof(my_struct, name)); 
return OU: 


} 


通过 这 个 offset 及 结构 体 指针 就 可 以 读 取 这 个 成 员 : (char*)my_sutct + 


offset ， 等 价 于 my_sutct->name 。 


定义 完 上 面 的 配置 映射 规则 后 就 可 以 进行 映射 了 ， 这 一 步 通 

过 REGISTER_INI_ENTRIES() 完成 ， 这 个 宏 展开 

后 : zend_register_ ini entries(ini entries, module number) ， 
ini_entries 是 PHP_INI_BEGIN/END() 两 个 宏 生成 的 配置 映射 规则 数组 ， 通 常会 把 
这 个 操作 放 到 PHP_MINIT_FUNCTION() 中 ， 注 意 : 此 时 php.ini 已 经 解析 

到 configuration_hash 哈 希 表 中 ， zend_register_ini entries() 将 根据 配 
置 name 查 找 这 个 哈 希 表 ， 如 果 找 到 了 表明 用 户 在 php.ini 中 配置 了 该 项 ， 然 后 将 调 
用 此 规则 指定 的 on _modify 有 函数 进行 赋值 ， 比 如 上 面 的 示例 将 调 

用 OnUpdateLong() 处 理 ， 整 体 的 流程 : 


ZEND_API int zend register ini entries(const zend ini entrv der 
*ini_entry, int module number) 
{ 

zend_ini_entry *p; 

zval *default_value; 

HashTable *directives = registered_zend_ini_directives; 


while (ini_entry->name) { 
// 分 配 zend_ini_ entry 结 构 
p = pemalloc(sizeof(zend_ini_entry), 1); 
//zend ini _ entry 初始 化 


// 添 加 到 registered_zend_ini _ directives，EG(ini directives 
) 也 是 指向 此 HashTable 

if (end hash add ptr(directives, p->name, (void*)p) == 
NULL) { 


//zend_ get_configuration_ directive() 最 终 将 调用 cfg_get_entr 


y() 
// 从 configuration_hash 哈 希 表 中 查找 配置 ， 如 果 没 有 找到 将 使 用 默认 值 


default_value = zend oer _ configuration _ directive(p->name 


if (p->on_modify) { 
// 调 用 定义 的 赋值 handler 处 理 
p->on_modify(p, p->value, p->mh_arg1, p->mh_arg2, p- 
>mh_arg3, ZEND_INI_STAGE_STARTUP); 
} 


} 
IEE 


OnUpdateLong() 赋值 处 理 : 


ZEND_API ZEND_INI_MH(OnUpdateLong) 
{ 

zend_long *p; 
#ifndef ZTS 

// 存 储 结构 的 指针 

char "base = (char *) mh_arg2; 
#else 

char *base; 

//ZTS 下 需要 向 TSRM 中 获取 存储 结构 的 指针 

base = (char *) ts_resource(*((int *) mh_arg2)); 
#endif 

// 指 向 结构 体 成 员 的 位 置 

p = (end Long *) (base+(size Cl mh_arg1); 

// 将 值 转 为 zend_long 

*p = Zend_atol(ZSTR_ VAL(new value), (int)ZSTR_LEN(new_value) 
); 

return SUCCESS; 


如 果 PHP 提 供 的 几 个 on_modify 不 能 满足 需求 可 以 自 定 义 on_modify 有 函数 ， 举 个 例 
F : 将 php.ini 中 的 配置 wiest. class 插入 MYTESY_G(class_table) 哈 希 表 ， 则 
可 以 在 扩展 中 定义 这 样 一 个 on modify : ZEND_INI_MH(OnUpdateAddArray) ， 将 
php.ini 映 射 到 全 局 变量 的 完整 代码 : 


//php_mytest.h 
#define MYTEST_G(v) ZEND_MODULE_GLOBALS_ACCESSOR(mytest, v) 


ZEND_BEGIN_MODULE_GLOBALS(mytest) 
zend_long open_cache; 
HashTable class_table; 

ZEND_END_MODULE_GLOBALS(mytest) 


// 自 定义 on_modify 有 函数 


ZEND_API ZEND_INI MH(OnUpdateAddArray); 


//mytest.c 
ZEND DECLARE MODULE GLOBALS(mytest) 


PHP_INI_BEGIN() 
STD_PHP_INI_ENTRY("mytest.open_cache", "109", PHP_INI_ALL, O 
nUpdateLong, open Cache, zend_mytest_globals, mytest_globals) 
STD_PHP_INI_ENTRY("mytest.class", "stdClass", PHP_INI_ALL, O 
nUpdateAddArray, class_table, zend_mytest_globals, mytest_global 
s) 
PHP_INI_END(); 


ZEND_API ZEND_INI_MH(OnUpdateAddArray) 
{ 
HashTable AME, 
zval val; 
#ifndef ZTS 
char *base = (char *) mh_arg2; 
#else 
char *base; 
base = (char *) ts_resource(*((int *) mh_arg2)); 
#endif 


ht = (HashTable*)(base+(size t) mh_arg1); 
ZVAL_NULL (&val); 
zend_hash add(ht, new value, &val); 


} 
PHP_MINIT_FUNCTION(mytest) 
{ 
zend_hash_ init(&MYTEST_G(class_ table), ©, NULL, NULL, 1); 
// 将 php.ini 解 析 到 指定 结构 体 
REGISTER_INI_ENTRIES( ) ， 
printf("open_cache %d\n", MYTEST_G(open_cache)); 
} 


zend_module_entry mytest module entry = { 
STANDARD_MODULE_HEADER, 
"mytest", 
NULL, //mytest_functions, 
PHP_MINIT(mytest), 
NULL, //PHP_MSHUTDOWN (mytest), 


NULL, //PHP_RINIT(mytest), 
NULL, //PHP_RSHUTDOWN (mytest), 
NULL, //PHP_MINFO(mytest), 

e Bel 0 
STANDARD MODULE PROPERTIES 


A 


#ifdef COMPILE DL TIMEOUT 
#ifdef ZTS 
ZEND_TSRMLS_CACHE_DEFINE() 
#endif 

ZEND_GET_MODULE (mytest) 
#endif 


本 节 主 要 介绍 了 如 何 将 php.ini 配 置 项 解析 到 C 语 言 变 量 中 ， 总 结 下 主要 分 为 两 


。 定义 解析 规则 : 434 PHP_INI_BEGIN() ` PHP_INI_END() ` 
STD_PHP_INI_ENTRY() 配 置 

e 执行 规则 映射 : 由 REGISTER_INI_ENTRIES() 来 完成 ， 这 个 
的 变量 就 可 以 使 用 了 


Sg 


7.6 部 数 


7.6.1 内 部 函数 注册 


通过 扩展 可 以 将 C 语 言 实现 的 函数 提供 给 PHP 脚 本 使 用 ， 如 同 大 量 PHP 内 置 了 部 数 一 
样 ， 这 些 函 数 统称 为 内 部 函数 (internal function)， 与 PHP 脚 本 中 定义 的 用 户 函 数 不 
同 ， 它 们 无 需 经 历 用 户 函 数 的 编译 过 程 ， 同 时 执行 时 也 不 像 用 户 函 数 那 样 每 一 个 指 
令 都 调用 一 次 C 语 言 编写 的 handler 函 数 ， 因 此 ， 内 部 函数 的 执行 效率 更 高 。 除 了 性 
能 上 的 优势 ， 内 部 函数 还 可 以 拥有 更 高 的 控制 权限 ， 可 发 挥 的 作用 也 更 大 ， 能 够 完 
成 很 多 用 户 函 数 无 法 实现 的 功能 。 


前 面 介 绍 PHP 函 数 的 编译 时 曾经 详细 介绍 过 PHP 函 数 的 实现 ， 函 数 通 

过 zend_function 来 表示 ， 这 是 一 个 联合 体 ， 用 户 函 数 使 

用 zend_function.op_array ， 内 部 函数 使 

用 zend_function.internal function ， 两 者 具有 相同 的 头 部 用 来 记录 函数 的 
基本 信息 。 不 管 是 用 户 函 数 还 是 内 部 函数 ， 其 最 终 都 被 注册 到 EG(function_table) 
中 ， 蜀 数 被 调用 时 根据 苑 数 名 称 向 这 个 符号 表 中 查找 。 从 内 部 函数 的 注册 、 使 用 过 
程 可 以 看 出 ， 其 定义 实际 非常 简单 ， 我 们 只 需要 定义 一 

个 zend_internal function 结构 ， 然 后 注册 到 EG(function_table) 中 即 可 ， 接 下 
来 再 重新 看 下 内 部 函数 的 结构 : 


typedef struct ` zend internal function / 
/* Common elements */ 
zend_uchar type; 
zend_uchar arg_flags[3]; /* bitset of arg_info.pass_by_refer 
ence */ 
uants2 t Maf lags; 
zend_string* function_name; 
zend_class_entry *scope; 
zend_function *prototype; 
uint32_t num_args; 
uint32_t required_num_args; 
zend_internal_arg_info *arg_info; 
/* END of common elements */ 


void (*handler)(INTERNAL_FUNCTION_PARAMETERS); / /有 函数 指针 ， 展 
J : void (*handler)(zend_execute_data *execute_data, zval *return 
_value) 
struct _zend_module_entry *module; 
void *reserved[ZEND_MAX_RESERVED_RESOURCES]; 


} zend_internal_function; 


Common elements SZ 5 A P hAm AKR” Hinz In : 函数 类 
型 、 参 数 信 息 、 函 数 名 等 ，handler 是 此 内 部 函数 的 具体 实现 ，PHP 提 供 了 一 个 宏 用 
于 此 handler 的 定义 : PHP_FUNCTION(function_name) 或 ZEND_FUNCTION() ， 
展开 后 : 


void *zif function name(zend execute data *execute data, zval *r 
eturn value) 


{ 


PHP 为 函数 名 加 了 "zif "前 级 ，gdb 调 试 时 记得 加 上 这 个 前 组 ; 另外 内 部 函数 定义 了 


两 个 参数 : execute data, return_value > evecute data 不 用 再 说 了 ，return_value 
是 函数 的 返回 值 ， 这 两 个 值 在 扩展 中 会 经 常用 到 。 


比如 要 在 扩展 中 定义 两 个 函数 : my func_1()、my func 2()， 首 先是 编写 函数 : 


PHP_FUNCTION(my_func_1) 


{ 

printf("“Hello, I'm my_func_1\n"); 
} 
PHP_FUNCTION(my_func_2) 
{ 

Prane Henlomi mmyafumeeoNn 
} 


函数 定义 完了 就 需要 向 PHP 注 册 了 ， 这 里 并 不 需要 扩展 自己 注册 ，PHP 提 供 了 一 个 
内 部 函数 注册 结构 : zend _function_entry， 扩 展 只 需要 为 每 个 内 部 函数 生成 这 样 一 
个 结构 ， 然 后 把 它们 保存 到 扩展 zend_module_entry.functions 即 可 ， 在 加 载 
扩展 中 会 自动 向 EG(function_table) 注 册 。 


typedef struct _zend_function_entry { 
const char *fname; // 遂 数 名 称 
void (*handler)(INTERNAL FUNCTION PARAMETERS); //handler 实 现 
const struct _zend internal arg_info *arg_info;// 参 数 信 息 
uint32_t num_args; // 参 数 数目 
uint32_t flags; 

} zend_function_entry; 


zend _ function _entry 结 构 可 以 通过 PHP_FE() 或 ZEND_FE() 定义 : 


const zend function entry mytest_functions[] = { 
PHP_FE(my_func_1, NULL) 
PHP_FE(my_func_2, NULL) 
PHP_FE_END // 末 尾 必须 加 这 个 


#define ZEND_FE(name, arg_info) ZEND_FENTRY( 
name, ZEND_FN(name), arg_info, 0) 

#define ZEND_FENTRY(zend_name, name, arg_info, flags) { #zend_ 
name, name, arg_info, (uint32_t) (sizeof(arg_info)/sizeof(struct 
_zend_internal_arg_info)-1), flags }, 

#define ZEND_FN(name) zif_##name 


最 后 将 zend_module_entry->functions 设置 为 mytest_functions PPT : 


zend_module_entry mytest_module_entry = { 
STANDARD_MODULE_HEADER, 
"mytest", 
mytest_functions, //functions 
NULL, PHESMINETT (my CESE) 
NULL, //PHP_MSHUTDOWN (mytest), 
NULL, /Z/PHP RiNiTi(mtesrl, 
NULL, //PHP_RSHUTDOWN (mytest), 
NULL, //PHP_MINFO(mytest), 
TO Ou 
STANDARD_MODULE_PROPERTIES 





}; 


下 面 来 测试 下 这 两 个 函数 能 否 使 用 ， 编 译 安装 后 在 PHP 脚 本 中 调用 这 两 个 函数 : 
/A | ono 


my_func_1(); 
my_func_2(); 


cli 模 式 下 执行 php test.php 将 输出 : 


Hello, I'm my _func_ 1 
Hello, I'm my _ func_ 2 


大 功 告 成 ， 函 数 已 经 能 够 正常 工作 了 ， 后 续 的 工作 就 是 不 断 完 善 handler 实 现 扩 展 自 
己 的 功能 了 。 


7.6.2 函数 参数 解析 


上 面 我 们 定义 的 函数 没有 接收 任何 参数 ， 那 么 扩展 定义 的 内 部 函数 如 何 读 取 参 数 
呢 ?首先 回顾 下 函数 参数 的 实现 : 用 户 自 定义 函数 在 编译 时 会 为 每 个 参数 创建 一 
个 zend_arg_info 结构 ， 这 个 结构 用 来 记录 参数 的 名 称 、 是 否 引 用 传 参 、 是 否 为 
可 变 参 数 等 ， 在 存储 上 函数 参数 与 局 部 变量 相同 ， 都 分 配 在 zend_execute_data 
上 ， 且 最 先 分 配 的 就 是 函数 参数 ， 调 用 函数 时 首先 会 进行 参数 传递 ， 按 参数 次 序 依 
次 将 参数 的 value 从 调用 空间 传递 到 被 调 函 数 的 zend_execute _data， 了 有 函数 内 部 像 访 
问 普 通 局 部 变量 一 样 通过 存储 位 置 访问 参数 ， 这 是 用 户 自 定义 函数 的 参数 实现 。 


内 部 郊 数 与 用 户 自 定义 函数 最 大 的 不 同 在 于 内 部 泡 数 就 是 一 个 普通 的 C 函 数 ， 除 函 
数 参数 以 外 在 zend_execute_ data 上 没有 其 他 变量 的 分 配 ， 函 数 参 数 是 从 PHP 用 户 
空间 传 到 函数 的 ， 它 们 与 用 户 自 定义 函数 完全 相同 ， 包 括 参 数 的 分 配方 式 、 传 参 过 
程 ， 也 是 按照 参数 次 序 依 次 分 配 在 zend_execute_data 上 ， 所 以 在 扩展 中 定义 的 函 
数 直接 按照 顺序 从 zend_execute_ data 上 读 取 对 应 的 值 即 可 ，PHP 中 通 

过 zend_parse_parameters() 这 个 函数 解析 zend_execute _ data 上 保存 的 参数 : 


zend_parse_parameters(int num args, const char *type_spec, ...); 


enum_args 为 实际 传 参 数 ， 通 过 ZEND_NUM_ARGS() 获取 : 
zend_execute _data->This.u2.num_args， 前 面 曾 介绍 
过 zend_execute_data->This 这 个 zval 的 用 途 ; 

e type_spec 是 一 个 字符 串 ， 用 来 标识 解析 参数 的 类 型 ， 比 如 :"la" 表 示 第 一 个 参数 
为 整形 ， 第 二 个 为 数组 ， 将 按照 这 个 解析 到 指定 变量 ; 

e 后 面 是 一 个 可 变 参 数 ， 用 来 指定 解析 到 的 变量 ， 这 个 值 与 type_spec 配 合 使 
用 ， 即 type_spec 用 来 指定 解析 的 变量 类 型 ， 可 变 参 数 用 来 指定 要 解析 到 的 变 
量 ， 这 个 值 必须 是 指针 。 


i 解析 的 过 程 也 比较 容 匈 理解 ， 调 用 函数 时 首先 会 把 参数 拷贝 到 调用 芳 数 的 
Zend_execute_data 上 ， 所 以 解析 的 过 程 就 是 按照 type_spec 指 定 的 各 个 类 型 ， 依 次 
从 zend_execute data 上 获取 参数 ， 然 后 将 参数 地 址 赋 给 目标 变量 ， 比 如 下 面 这 个 
例子 : 


PHP_FUNCTION(my_func_1) 


{ 
zend_long lval; 
zval "arr: 
if(zend_parse_parameters(ZEND_NUM_ARGS(), "la", &lval, &arr) 
== FAILURE){ 
RETURN_FALSE; 
} 
} 


对 应 的 内 存 关 系 : 


函数 调用 空间 


zend execute data 









被 调 内 部 函数 
zval var_1 
(IS_ARRAY) zend evecute data 


DD 








目标 地 址 


zval *arr 
zend_long lval 






zval param_1 
(IS_ARRAY) 





zval param_2 
(IS_TRUE) 





WITT? 


WITT? 


H 
D D 


传 参 阶段 zend_parse_parameters() 


注意 : 解析 时 除了 整形 、 浮 点 型 、 布 尔 型 是 直接 硬 拷 贝 value 外 ， 其 它 解 析 到 的 变量 
只 能 是 指针 ，arr 为 zend_execute data 上 param_1 的 地 址 ， 即 : zval *arr = 
&param 1 ， 也 就 是 说 参数 始终 存储 在 zend_execute data 上 ， 解 析 获 取 的 是 这 些 
参数 的 地 址 。 zend_parse_parameters() 调用 了 zend_parse_va_args() 进行 


处 理 ， 简 单 看 下 解析 过 程 : 


ZN 


//Va 就 是 定义 的 要 解析 到 的 各 个 变量 的 地 址 
static int zend_ parse va args(int num args, const char *type_ spe 
C Va list va Dn e Tea 


const char *spec_walk; 


int min_num_args = -1; // 最 少 参数 数 
int max_num_args = 0; // 要 解析 的 参数 总 数 
int post_varargs = 0; 


zval *arg; 
int arg_count; // 实 际 传 参数 


// 人 遍历 type_spec 计 算出 min_num_args、max_num_args 
for (spec walk = type_ spec; *spec walk; spec walk++) { 


/ /检查 数目 是 否 合法 
if (num_args < min_num_args || (num_args > max_num_args && m 
ax_num_args >= 0)) { 


} 


// 获 取 实 际 传 参 数 : zend_execute_data.This.u2.num_args 
arg_count = E E N 


Leg: 
// 逐 个 解析 参数 


while (num args-- > 0) { 


// 获 取 第 i 个 参数 的 ZVal 地 址 : arg 就 是 在 zend_execute_data 上 分 配 的 
局 部 变量 
arg = ZEND_CALL ARG(EG(current execute data), i + 1); 


// 解 析 第 i 个 参数 
if (end parse arg(i+1, arg, va, &type_spec, flags) == 
AILURE) { 
if (varargs && *varargs) { 
*varargs = NULL; 
} 
return FAILURE; 


i++ 


接 下 来 详细 看 下 不 同类 型 的 解析 方式 。 


7.6.2.1 整形 :1、L 
整形 通过 "中 、"L" 标 识 ， 表 示 解 析 的 参数 为 整形 ， 解 析 到 的 变量 类 型 必须 
是 zend_long ， 不 能 解析 其 它 类 型 ， 如 果 输 入 的 参数 不 是 整形 将 按照 
则 将 其 转 为 整形 : 

zend_long lval; 

if(zend_ parse parameters(ZEND_ NUM ARGS(), "1", &lval){ 


} 


printf("lval:%d\n", lval); 


See 后 加 "I"， 即 : 


"nm 、 "Ll"*， 则 必须 再 提供 一 个 Zend_bool 变 量 的 地 址 ， 通 


这 个 值 可 以 判断 传 入 的 参数 是 否 为 NULL， 如 果 为 NULL 则 将 要 解析 到 的 


EE Kl zend bool 设置 为 1 : 





zend_long lval; / /如果 参 数 为 NULL 则 此 值 被 习 

zend_bool Le null: // 如 果 参 数 为 NULL 则 此 和 值 为 1， 否 则 为 0 
if(zend_parse_parameters(ZEND_NUM_ARGS(), "1!", 

{ 

} 


具体 的 解析 过 程 : 


&lval, ss null) 


//zend_API.c #line:519 


case 'l': 
case 'L': 
{ 


// 这 里 获取 解析 到 的 变量 地 址 取 的 是 zend_long *， 所 以 只 能 解析 到 zend_long 
zend_long *p = va_arg(*va, zend Long zi: 
zend_bool ze null = NULL; 


// 后 面 加 "1" 时 check_null 为 1 
if (check null) { 
is null = va arg(*va, zend bool zi: 


if (!zend_ parse arg long(arg, p, is_null, check null, c == 


L')) { 


return "integer"; 


7.6 函数 


static zend_always_inline int zend parse arg long(zval *arg, zen 
d_long *dest, zend_bool *is_null, int check_null, int cap) 
{ 
if (check_null) { 
*is_null = 0; 
} 
if (EXPECTED(Z_TYPE_P(arg) == IS_LONG)) { 
// 传 参 为 整形 ， 无 需 转化 
"dest = Z_LVAL_P(arg); 
} else if (check null && Z TYPE P(arg) == 1S NULL) / 
// 传 参 为 NULL 
*is null = 1; 
Tdest = 0 
} else if (cap) { 
本 
return zend_parse_arg_ Long cap slowiarg, dest); 
} else { 
ZO 
return zend_parse arg long_slow(arg, dest); 





} 


return 1; 


Note: "I" 与 "L" 的 区 别 在 于 ， 当 传 参 不 是 整形 且 转 为 整形 后 超过 了 整形 的 大 小 范 
围 时 ，"L" 将 值 调整 为 整形 的 最 大 或 最 小 值 ， 而 中 将 报错 ， 比 如 传 的 参数 是 字符 
串 "9223372036854775808"(0x7FFFFFFFFFFFFFFF + 1)， 转 整形 后 超过 了 有 
符号 int64 的 最 大 值 : 0xX7FFFFFFFFFFFFFFF， 所 以 如 果 是 "L" 将 解析 为 
Ox7FFFFFFFFFFFFFFF 。 


7.6.2.2 布尔 型 : b 


通过 "b" 标 识 符 表示 将 传 入 的 参数 解析 为 布尔 型 ， 解 析 到 的 变量 必须 是 zend_bool : 


385 


zend_bool ok; 


if(zend parse parameters(ZEND_ NUM ARGS(), "b", &ok, &is null) == 
FAILURE ){ 


"bI" 的 用 法 与 整形 的 完全 相同 ， 也 必须 再 提供 一 个 Zend_bool 的 地 址 用 于 获取 传 参 是 
否 为 NULL， 如 果 为 NULL， 则 zend_bool 为 0， 用 于 获取 是 否 NULL 的 zend_bool 为 
1 o 


7.6.2.3 浮 点 型 d 
通过 "d" 标 识 符 表示 将 参数 解析 为 浮 点 型 ， 解 析 的 变量 类 型 必须 为 double : 
double dval; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "d", &dval) == FAILURE 
){ 


具体 解析 过 程 不 再 展开 ，"d!" 与 整形 、 布 尔 型 用 法 完全 相同 。 


7.6.2.4 字符 串 : s、S、p、P 


字符 串 解析 有 两 种 形式 : char、zend_string， 其 中 "Ss" 将 参数 解析 到 `char， 且 需要 
额外 提供 一 个 size_t 类 型 的 变量 用 于 获取 字符 串 长 度 ，"S" 将 解析 到 zend_string : 


char EE 
size_t Str len， 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "s", &str, &str_len) = 
= FAILURE){ 


Zend String EE 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "S", &str) == FAILURE) 
{ 


"sl"、"SI" 与 整形 、 布 尔 型 用 法 不 同 ， 字 符 串 时 不 需要 额外 提供 Zzend_bool 的 地 址 ， 

如 果 参 数 为 NULL， 则 char*、zend string 将 设置 为 NULL。 除 了 "s"、"S" 之 外 还 有 两 
个 类 似 的 : "p"、"P"， 从 解析 规则 来 看 主要 用 于 解析 路 径 ， 实 际 与 普通 字符 串 没 什 
么 区 别 ， 尚 不 清楚 这 俩 有 什么 特殊 用 法 。 


7.6.2.5 数组 :a、A、h、H 


数组 的 解析 也 有 两 类 ， 一 类 是 解析 到 zval 层 面 ， 另 一 类 是 解析 到 HashTable， 其 
中 "a"、"A" 解 析 到 的 变量 必须 是 zval ，"h"、"H" 解 析 到 HashTable， 这 两 类 是 等 价 
的 : 


* IIA Bure Aen o” AA oual ae a A HAX en 
zval arr, // SM azvaljs 4 IBE SE ZVOl ari Hl 21-291 ZG 





nd_execute data 上 ，arr 为 此 空间 上 参数 的 地 址 


HashTable aht; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "ah", &arr, &ht) == FA 
ILURE){ 


case "AT: 
case al 
{ 
// 解 析 到 ZVal * 
zval **p = va_arg(*va, zval **); 


if (!zend_parse_arg_array(arg, p, Check null, c == 'A')) { 
return "array"; 


} 


break; 


case 'H': 
case 'h': 
{ 
// 解 析 到 HashTable * 


HashTable **p = va arg(*va, HashTable **); 
if (!zend parse arg array_ht(arg, p, check null, c == 'H')) 
return "array"; 


} 


break; 


"al" > "AM - "h" > "H" A A5 FA PS o R R RA IRAR A ghk > da RAe 
参 为 NULL， 则 对 应 解析 到 的 zval、HashTable 也 为 NULL。 


Note: 


1、"a" 与 "A" 当 传 参 为 数组 时 没有 任何 差别 ， 它 们 的 区 别 在 于 : 如 果 传 参 为 对 
象 "A" 将 按照 对 象 解析 到 zval， 而 "a" 将 报错 


2、"h" 与 "H" 当 传 参 为 数组 时 同样 没有 差别 ， 当 传 参 为 对 象 时 ，"H" 将 把 对 象 的 
成 员 参 数 数组 解析 到 目标 变量 ，"h" 将 报错 


7.6.2.6 4% : o、O 


如 果 参 数 是 一 个 对 象 则 可 以 通过 "o"、"O" 将 其 解析 到 目标 变量 ， 注 意 : 只 能 解析 为 
Zval， 无 法 解析 为 zend_object。 


zval *obj; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "o", &obj) == FAILURE) 
{ 


"O" 是 要 求解 析 指 定 类 或 其 子 类 的 对 象 ， 类 似 传 参 时 显 式 的 声明 了 参数 类 型 的 用 
法 : function my_func(MyClass $obj){...} ， 如 果 参 数 不 是 指定 类 的 实例 化 
对 象 则 无 法 解析 。 


"o!" S "OI" 与 字符 SS 用 法 相 同 o 


7.6.2.7 资源 r 
如 果 参 数 为 资源 则 可 以 通过 "P" 获 取 其 zval 的 地 址 ， 但 是 无 法 直接 解析 到 
zend resource 的 地 址 ， 与 对 象 相同 。 


zval anes, 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "r", &res) == FAILURE) 
{ 


GEES EE 


7.6.2.8 类 C 


如 果 参 数 是 一 个 类 则 可 以 通过 "C" 解 析出 zend_class_entry 地 址 : function 
my_func(stdClass){...} ， 这 里 有 个 地 方 比较 特殊 ， 解 析 到 的 变量 可 以 设 定 为 一 
个 类 ， 这 种 情况 下 解析 时 将 会 找到 的 类 与 指定 的 类 之 问 的 父子 关系 ， 只 有 存在 父子 
关系 才能 解析 ， 如 果 只 是 想 根据 参数 获取 类 型 的 zend_class_entry 地 址 ， 记 得 将 解 
析 到 的 地 址 初始 化 为 NULL， 否 则 将 会 不 可 预料 的 错误 。 


zend Class entrv *ce = NULL，V// 初 始 为 NULL 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "C", &ce) == FAILURE){ 
RETURN_FALSE ， 


7.6.2.9 callable : f 


callable 指 函数 或 成 员 方 法 ， 如 果 参 数 是 函数 名 称 字符 串 、 S N 
È) MTAA "nR D h zend_fcall_info 结构 ， 这 个 结构 是 调用 函数 
成 员 方法 时 的 唯一 输入 。 


d 


zend_fcall_info callable; // 注 意 ， 这 两 个 结构 不 能 是 指针 
zend_fcall Info Cache call Cache: 





if(zend_parse_parameters(ZEND_NUM_ARGS(), "f", &callable, &call_ 
cache) == FAILURE){ 
RETURN_FALSE ， 


函数 调用 : 


my_func_1("func_name"); 


/ / ES, 


my_func_1(array('class_name', 'static_method')); 


/ /或 
VIER 


my_func_1(array($object， 'method')); 


解析 出 zend_fcall info 后 就 可 以 通过 zend_call_function() 调用 函数 、 成 
IFAT > RA eg zend_fcall info 的 用 意 是 简化 函数 调用 的 操作 ， 否 则 
需要 我 们 自己 去 查找 函数 、 检 查 是 否 可 被 调用 等 工作 ， 关 于 这 个 结构 稍 后 介绍 函数 
调用 时 再 作 详 细 说 明 。 


7.6.2.10 任意 类 型 : z 


"z" 表 示 按 参数 实际 类 型 解析 ， 比 如 参数 为 字符 串 就 解析 为 字符 串 ， 参 数 为 数组 就 解 
析 为 数组 ， 这 种 实际 就 是 将 zend execute_data 上 的 参数 地 址 拷贝 到 目的 变量 了 ， 
没有 做 任何 转化 。 


"zI" 与 字符 囊 用 法 相同 。 


7.6.2.11 其 它 标 识 符 


除了 上 面 介绍 的 这 些 解析 符号 以 外 ， 还 有 几 个 有 特殊 用 法 的 标识 符 : ain num, mmm: 
它们 并 不 是 用 来 表示 某 种 数据 类 型 的 。 


e |: 表示 此 后 的 参数 为 可 选 参 数 ， 可 以 不 传 ， 比 如 解析 规则 为 : "allb"， 则 可 以 
传 2 个 或 3 个 参数 ， 如 果 是 : "alb"， 则 必须 传 3 个 ， 否 则 将 报错 

e+、* : 用 于 可 变 参数 ，+、* 的 区 别 在 于 * 表示 可 以 不 传 可 变 参 数 ， 而 + 表 
示 可 变 参 数 至 少 有 一 个 。 可 变 参 数 将 被 解析 到 zval 数 组 ， 可 以 通过 一 个 整形 参 
数 ， 用 于 获取 具体 的 数量 ， 例 如 : 


PHP_FUNCTION(my_func_1) 
{ 


zval *args; 
int argc; 


if (zend_parse_parameters(ZEND_NUM_ARGS(), "+", &args, &ar 


gc) == FAILURE) { 
return; 


argc 获 取 的 就 是 可 变 参 数 的 数量 ，args 为 参数 数组 ， 指 向 第 一 个 参数 ， 可 以 通 
过 args[i] 获 取 其 它 参 数 ， 比 如 这 样 传 参 : 


my_func_1(array(), 1, false, "ddd"); 


那么 传 入 的 4 个 参数 就 可 以 在 解析 后 通过 args[0]、args[1]、args[2]、args[3] 获 
取 。 


7.6.3 引用 传 参 


介绍 了 如 何在 内 部 函数 中 解析 参数 ， 这 里 还 有 一 种 情况 没有 讲 到 ， 那 就 是 引 


$a = array(); 


function my_func(&$a){ 
$a[] = 1; 


上 面 这 个 例子 在 函数 中 对 $a 的 修改 将 反映 到 原 变量 上 ， 那 么 这 种 用 法 如 何在 内 部 本 
数 中 实现 呢 ? 上 一 节 介 绍 参 数 解析 的 过 程 中 并 没有 提 到 用 户 函 数 中 参数 的 

zend _arg_info 结 构 ， 内 部 函数 中 也 有 类 似 的 一 个 结构 用 于 函数 注册 时 指定 参数 的 一 
些 信 息 : zend Internal ag _ info ° 


typedef struct _zend_internal_arg_info { 
const char *name; // 参 数 名 
const char *class_ name: 
zend_uchar type_hint; // 显 式 声 明 的 类 型 
zend_uchar pass by_reference; 
zend_bool allow null: [IETT 





zend_bool is_variadic; // 是 否 为 可 变 参 数 
} zend_internal_arg_info; 


这 个 结构 几乎 与 zend_arg_info 完 全 一 样 ， 不 同 的 地 方 只 在 于 name、class_name 的 
类 型 ，zend ang info 这 两 个 成 员 的 类 型 都 是 zend_string。 如 果 函 数 需要 使 用 引用 
类 型 的 参数 或 返回 引用 就 需要 创建 函数 的 参数 数组 ， 这 个 数组 通 

过 : ZEND_BEGIN_ARG_INFO( ) 或 

ZEND_BEGIN_ARG_INFO_EX() ` ZEND_END_ARG_INFO() 宏 定义 : 


#define ZEND_BEGIN_ARG_INFO_EX(name, _unused, return_reference, 
required_num_args) 
#define ZEND_BEGIN_ARG_INFO(name, _unused) 


e name: 参数 数组 名 ， 注 册 函 数 PHP_FE(function，arg_info) 会 用 到 


e unused: 保留 值 ， 暂 时 无 用 
e return_reference: 返回 值 是 否 为 引用 ， 一 般 很 少 会 用 到 
e required_num_args: required 参 数 数 


这 两 个 宏 需 要 与 ZEND_END_ARG_INFO() 配合 使 用 : 


ZEND_BEGIN_ARG_INFO_EX(arginfo_my_func_1, 0, 0, 2) 





ZEND_END_ARG_INFO() 


接着 就 是 在 上 面 两 个 宏 中 间 定 义 每 一 个 参数 的 zend_internal_arg_info，PHP 提 供 的 
宏 有 : 


//pas e RK 2 gll ZE, d AL Y Zb 
//pass_by_ref 表 示 是 否 引 用 传 参 ，name 为 参数 名 称 


#define ZEND_ARG_INFO(pass_by_ref, name) 

{ #name, NULL, ©, pass_by_ref, 0, 0 }, 
// 只 声明 此 参数 为 引用 传 参 
#define ZEND ARG PASS_ INFO(pass_ by_ref) 

{ NULL, NULL, ©, Dass by _ref, 0, 0 }, 
// 显 式 声明 此 参数 的 类 型 为 指定 类 的 对 象 ， 等 价 于 PHP 中 这 样 声明 ` MyClass $obj 
#define ZEND_ARG_OBJ_INFO(pass_by_ref, name, classname, allow_nu 
11l) { #name, #classname, IS_OBJECT, pass_by_ref, allow_null, 0 


}, 


f 2 A + oO d e ŽL KM h žr 组 DEE Ee EA -ra 


// AFP BI dt, ARARE A A FH Array $ar 

#define ZEND_ARG_ARRAY_INFO(pass_ TPA name, allow_null) 
{ #name, NULL, IS_ARRAY, pass_by_ref, allow_null, ot, 

// 显 式 声 明 为 callable， 将 检查 函数 、 成 员 方 法 是 否 可 调 

#define ZEND_ARG CALLABLE_INFO(pass_by_ref, name, allow_null) 
{ #name, NULL, IS CALLABLE, Dass Dy rer, allow null, © }, 


// 通 用 宏 ， 自 定义 各 个 字段 
#define ZEND ARG TYPE_INFO(pass_by_ref, name, type_hint, allow_n 
ull) { #name, NULL, type_hint, pass_by_ref, allow null, © }, 


Z CSS pn zer ap Z EL 
// P Hl A el RARA 


#define ZEND_ARG_VARIADIC_INFO(pass_by_ref, name) 
{ #name, NULL, ©, pass_by_ref, 0, 1 }, 


举 个 例子 来 看 : 


function my_func_1(&$a, Exception $c){ 


用 内 核实 现 则 可 以 这 么 定义 : 


ZEND_BEGIN_ARG_INFO_EX(arginfo_my_func_1, ©, 0, 1) 
ZEND_ARG_INFO(1, a) //3 引 用 
ZEND_ARG_OBJ_INFO(0, b, Exception, 0) // 注 意 : 这 里 不 要 把 字符 事 加 





Uu 


ZEND END ARG INFO) 


展开 后 : 


static const zend_internal_arg_info name[] = { 
// 多 出 来 的 这 个 是 给 返回 值 用 的 
(const Ehe Cen REENERT NEIE ER OO 
ER ITU O O O O 
(LDLEXCeptronm STR OA 00 


第 一 个 数组 元 素 用 于 记录 必 传 参数 的 数量 以 及 返回 值 是 否 为 引用 。 定 义 完 这 个 数组 
接 下 来 就 需要 把 这 个 数组 告诉 函数 : 


const zend function entry mytest_functions[] = { 
PHP_FE(my_func 1, arginfo_my_func_1) 
PHP_FE(my_func 2, NULL) 
PHP_FE_END // 末 尾 必 须 加 这 个 

}; 


引用 参数 通过 zend_parse_parameters() 解析 时 只 能 使 用 "z" 解 析 ， 不 能 再 直接 
解析 为 Zend_value 了 ， 否 则 引用 将 失效 : 


PHP_FUNCTION(my_func 1) 

{ 
zval *lval; // 必 须 为 Zzval， 定 义 为 zend_long 也 能 解析 出 ， 但 不 是 引用 
zval *obj; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "zo", &lval, &obj) 
== FAILURE){ 
RETURN_FALSE ， 


//lval 的 类 型 为 IS_REFERENCE 

zval *real val = Z REFVAL _P(lval); // 获 取 实 际 引 用 的 Zzval 地 址 : &( 
lval.value->ref .val) 

Z_LVAL_P(real val) = 100; // 设 置 实际 引用 的 类 型 


bk 


$a = 90; 
$b = new Exception; 
my_func_1($a, $b); 


Note: 参数 数组 与 zend_parse_parameters() 有 很 多 功能 重合 ， 两 者 都 会 生效 ， 
对 Zend_internal_arg_info 验 证 在 zend_parse_parameters() 之 前 ， 为 避免 混乱 
两 者 应 该 保持 一 致 ; 另外 ， 虽 然 内 部 函数 的 参数 数组 并 不 强制 定义 声明 ， 但 还 
是 建议 声明 。 


7.6.4 函数 返回 值 


调用 内 部 函数 时 其 返回 值 指针 作为 参数 传 入 ， 这 个 参数 为 zval 
*return_value ， 如 果 有 函数 有 返回 值 直接 设置 此 指针 即 可 ， 需 要 特别 注意 的 是 设 
置 返回 值 时 需要 增加 其 引用 计数 ， 举 个 例子 来 看 : 


PHP_FUNCTION(my_func_1) 
{ 


zval *arr; 
if(zend_parse_parameters(ZEND_NUM_ARGS(), "a", &arr) == FAIL 


URE) { 
RETURN_FALSE; 


// 增 加 引用 计数 
Z_ADDREF_P(arr); 


// 设 置 返回 值 为 数组 : 


ZVAL_ARR(return_ value, Z ARR_P(arr)); 


此 函数 接收 一 个 数组 ， 然 后 直接 返回 该 数组 ， 相 当 于 : 


function my_func_1($arr){ 
return $arr; 


} 
调用 该 函数 : 
$a = array() Mba zeNndEanray (Pe rcount: 1) 
$b = my_func_1($a); // 传 参 后 : 参数 arr -> zend_array(refcount:2) 


// 然 后 函数 内 部 赋 给 了 返回 值 : $b, $a,arr -> zend_arr 
ay(refcount:3) 

// 函 数 return 阶 段 释放 了 参数 : $b, $a -> zend_array 
(refcount :2) 
var_dump($b); 


array(0) { 
} 


虽然 可 以 直接 设置 return_value， 但 实际 使 用 时 并 不 建议 这 么 做 ， 因 为 PHP 提 供 了 
很 多 专门 用 于 设置 返回 值 的 宏 ， 这 些 宏 定 义 在 zend_API.h 中 : 


// 返 回 布 尔 型 ，b IS_FALSE ` IS TRUE 


#define RETURN_BOOL(b) { RETVAL_BOOL(b); return 
D 

// 返 回 NULL 

#define RETURN_NULL() { RETVAL_NULL(); return: 


// 返 回 整形 ，1 类 型 : zend_long 


#define RETURN LONG) { RETVAL LONG(1); return 
SC 

// 返 回 浮 点 值 ，d 类 型 : double 

#define RETURN_DOUBLE(d ) { RETVAL_DOUBLE(d); retu 
rn; } 


// 返 回 字符 串 ， 可 返回 内 部 字符 串 ，S 类 型 为 : zend_string * 
#define RETURN_STR(S ) { RETVAL_STR(s); return; 
} 


// 返 回 内 部 字符 串 ， 这 种 变量 将 不 会 被 回收 ，S 类 型 为 : zend_string * 
#define RETURN_INTERNED_STR(S ) { RETVAL_INTERNED_STR(S ) 
; return; } 


// 返 回 普通 字符 串 ， 非 内 部 字符 串 ，S 类 型 为 : zend_string * 
#define RETURN_NEW_STR(s) { RETVAL_NEW_STR(s); 
urn; } 


// 找 贝 字 符 串 用 于 返回 ， 这 个 会 自己 加 引用 计数 ，S 类 型 为 : zend string * 
#define RETURN_ STR_COPY(Ss) { RETVAL_STR_COPY(s); re 
turn; } 


// 返 回 Char * 类 型 的 字符 事 ，S 类 型 为 char * 
#define RETURN STRING(S) { RETVAL_STRING(s); retu 


rn; } 


// 返 回 char * 类 型 的 字符 串 ，S 类 型 为 Char *，] 为 字符 囊 长 度 ， 类 型 为 size_ 七 
#define RETURN_STRINGL(s, 1) { RETVAL STRINGL(s, 1); 
return; } 


// 返 回 空 字符 囊 
#define RETURN_EMPTY_STRING() { RETVAL_EMPTY_STRING( ) ， 
return; } 


/HN a n aA ` end resource ? 


#define RETURN_RES(r) { RETVAL_RES(r); return; 
} 

// 返 回 数组 ，r 类 型 : zend_array * 

#define RETURN_ARR(r) { RETVAL_ARR(r); return: 
} 

// 运 回 对 象 ，r 类 型 : zend_object * 

#define RETURN_OBJ(r) { RETVAL OBJ(r); return; 
} 


// 返 回 zZVal 
#define RETURN_ZVAL(zv, copy, dtor) { RETVAL_ZVAL(zv, copy, 
dtor); return; } 


// 返 回 false 
#define RETURN_FALSE { RETVAL_FALSE; return; } 


// 返 回 true 
#define RETURN "TRUE { RETVAL_TRUE; return; } 


H PER 
7.6.5 元 数 调 用 


实际 应 用 中 ， 扩 展 可 能 需要 调用 用 户 自 定义 的 函数 或 者 其 他 扩展 定义 的 内 部 函数 ， 
前 面 章 节 已 经 介绍 过 函数 的 执行 过 程 ， 这 里 不 再 重复 ， 本 节 只 介绍 下 PHP 提 供 的 子 
数 调用 API 的 使 用 : 


ZEND_API int call user function(HashTable *function_table, zval 
*object, zval *function name, zval *retval_ptr, uint32_t param c 
ount, zval params[]); 


e function_table: 函数 符号 表 ， 普 通 函 数 是 EG(function_table)， 如 果 是 成 员 方 
法 则 是 zend_class_entry.function_table 

e object: 调用 成 员 方法 时 的 对 象 

e function_name: 调用 的 函数 名 称 

e retval _ptr: 函数 返回 值 地 址 

e param_count: 参数 数量 

e params: 参数 数组 


从 接口 的 定义 看 其 使 用 还 是 很 简单 的 ， 不 需要 我 们 关心 执行 过 程 中 各 阶段 复杂 的 操 
作 。 下 面 从 一 个 具体 的 例子 看 下 其 使 用 : 


(1) 在 PHP 中 定义 了 一 个 普通 的 函数 ， 将 参数 $i 加 上 100 后 返回 : 


function mySum($i){ 
return $i+100; 


(2) 接 下 来 在 扩展 中 调用 这 个 函数 : 


PHP_FUNCTION(my_func_1) 


{ 

zend_long d 

zval call_func_name, call_func_ret, call_func_params[1 
]; 

UUES IE call_func_param_cnt = 1; 

zend_string *call_func_str; 

char *func_name = "mySum"; 

if(zend_parse_parameters(ZEND_NUM_ARGS(), "1", &i) == FAILUR 
E){ 


RETURN_FALSE; 





// 分 配 zend_string: 调 用 完 需 要 条 

Call func_str = zend_string init(func name, strlen(func_name 
UE 

// 设 置 到 ZVval 

ZVAL_STR(&call func name, call func_ str); 

// 设 置 参数 


ZVAL_LONG(&call func params[0], i); 


//call 
if (SUCCESS != call_user_function(EG(function_table), NULL, & 
call_func_name, &call_func_ret, call_func_param_cnt, call_func_p 
arams)){ 
zend_string_release(call_func_str); 
RETURN_FALSE; 
} 
zend_string_release(call func_ str); 
RETURN_LONG(Z_LVAL(call func_ret)); 


function mySum($i){ 
return $i+100; 


echo my_func_1(60); 


call_user_function() 并 不 是 只 能 调用 PHP 脚 本 中 定义 的 函数 ， 内 核 或 其 它 扩 
展 注册 的 函数 同样 可 以 通过 此 函数 调用 ， 比 如 : array_merge() ° 


PHP_FUNCTION(my_func_1) 


{ 

zend_array "arr, *arr2; 

zval call_func_name, call_func_ret, call_func_params[2 
]; 

EE call_func_param_cnt = 2; 


zend_string *call_func_str; 
char *func_name = "array_merge"; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "hh", &arri, &arr2 
) == FAILURE){ 
RETURN_FALSE ， 


} 

// 分 配 zend_string 

Call func_str = zend_string_init(func_name, strlen(func_name 
), 9); 

// 设 置 到 zZVal 


ZVAL_STR(&call func name, call func_ str); 


ZVAL_ARR(&call func params[0], arr1); 
ZVAL_ARR(&call func params[1], arr2); 


if(SUCCESS != call user function(EG(function table), NULL, & 
Call _ func name, &call func_ ret, call func param cnt, call func _p 
arams ) ){ 
zend_string_release(call_func_str); 
RETURN_FALSE; 
} 
zend_string_release(call func_ str); 
RETURN_ARR(Z_ARRVAL(call_func_ret)); 


E a 


$arr1 
$arr2 


array (17 2); 


array(3,4); 


$arr = my_func_1($arr1, $arr2); 
var_dump($arr); 


你 可 能 会 注意 到 ， 上 面 的 例子 通过 call user_function() 调用 函数 时 并 没有 增 
加 两 个 数组 参数 的 引用 计数 ， 但 根据 前 面 介绍 的 内 容 : 函数 传 参 时 不 会 硬 找 贝 
Value， 而 是 增加 参数 value 的 引用 计数 ， 然 后 在 函数 return 阶 段 再 把 引用 减 掉 。 实 际 
是 call user_function() 替 我 们 完成 了 这 个 工作 ， 下 面 简单 看 下 其 处 理 过 程 。 


int call user function(HashTable “function table, zval *object, 
zval *function name, zval *retval ptr, uint32 t param count, zva 
l params[]) 
{ 

return call_user_function_ex(function_table, object, functio 
n_name, retval_ptr, param_count, params, 1, NULL); 


} 


int call user function _ex(Hashītrable “function table, zval *objec 
t; zval “function name, zval retval ptr, uints2 t param count, 
zval params[], nt no separation, zend_array “symbol table) 


{ 


zend_fcall_info fci; 


fci.size = sizeof(fci); 

fci.function_table = function_table; 

fci.object = object ? Z_0BJ_P(object) : NULL; 
ZVAL_COPY_VALUE(&fci.function_name, function_name); 
fci.retval = retval_ptr; 

fci.param_count = param_count; 

fci.params = params; 

fci.no_separation = (zend_bool) no_separation; 
fci.symbol_table = symbol_table; 


return zend_call_function(&fci, NULL); 


call_user_function() 将 我 们 提供 人 ge zend_fcall info 结构 ， 然 
后 调用 zend_call function() 进行 处 理 ， 还 

得 zend_parse_parameters() 那个 "f" 解 析 符 To 数 名 称 解 析 为 
一 个 zend_fcall_info ， 可 以 更 方便 的 调用 函数 ， 同 时 我 们 也 可 以 自己 创建 一 
个 zend_fcall info 结构 ， 然 后 使 用 zend_call_function() 完成 函数 的 调 

用 。 


int zend call function(zend fcall info *fci, zend_fcall_info_cac 
he *fci_cache) 


í 





for (i=0; i<fci->param_count; i++) { 
zval *param; 
zval *arg = &fci->params[i]; 


// 为 参数 添加 引用 
if (Z OPT REFCOUNTED P(arg)) { 
Z_ADDREF_P(arg); 


} 


// 调 用 的 是 用 户 函 数 
if (func->type == ZEND_USER_FUNCTION) { 
// 执 行 
zend_init execute data(call, &func->op_array, fci->retva 
1); 
zend_execute_ex(call); 
}else if (func->type == ZEND_INTERNAL_FUNCTION){ // 内 部 去 数 
if (EXPECTED(zend_execute_internal == NULL)) { 
func->internal_function.handler(call, fci->retval); 
} else { 
zend_execute_internal(call, fci->retval); 


7.7 zval 的 操作 


扩展 中 经 常会 用 到 各 种 类 型 的 zval，PHP 提 供 了 很 多 宏 用 于 不 同类 型 zval 的 操作 ， 
尽管 我 们 也 可 以 自己 操作 zval， 但 这 并 不 是 一 个 好 习惯 ， 因 为 zval 有 很 多 其 它 用 途 
的 标识 ， 如 果 自 己 去 管理 这 些 值 将 是 非常 繁琐 的 一 件 事 ， 所 以 我 们 应 该 使 用 PHP 提 
供 的 这 些 宏 来 操作 用 到 的 zval 。 


7.7.1 新 生成 各 类 型 zval 


PHP7 将 变量 的 引用 计数 转移 到 了 具体 的 value 上 ， 所 以 zval 更 多 的 是 作为 统一 的 传 
输 格式 ， 很 多 情况 下 只 是 临时 性 使 用 ， 比 如 函数 调用 时 的 传 参 ， 最 终 需要 的 数据 是 
ZVval 携 带 的 zend_value， 函 数 从 zval 取 得 zend_value 后 就 不 再 关心 zval 了 ， 这 种 就 
可 以 直接 在 栈 上 分 配 zval。 分 配 完 zval 后 需要 将 其 设置 为 我 们 需要 的 类 型 以 及 设置 


其 zend_value，PHP 中 定义 的 ZVAL_XXX() 系列 宏 就 是 用 来 干 这 个 的 ， 这 些 宏 第 


一 个 参数 z 均 为 要 设置 的 zval 的 指针 ， 后 面 为 要 设置 的 zend_value 。 


ZVAL_UNDEF(z): 表示 zval 被 销毁 

ZVAL_NULL(z): 设置 为 NULL 

ZVAL_FALSE(z): 设置 为 false 

ZVAL_TRUE(z): 设置 为 true 

ZVAL_BOOL(z, b): 设置 为 布尔 型 ，b 为 IS_ TRUE、|S_FALSE ;与 上 面 两 个 等 
价 

ZVAL_LONG(z, |): 设置 为 整形 ，| 类 型 为 zend ong: Ant zval z; 
ZVAL_LONG(&z, 88); 

ZVAL_DOUBLE(z, d): 设置 为 浮 点 型 ，d 类 型 为 double 

ZVAL_STR(z, s): 设置 字符 串 ， 将 z 的 value 设 置 为 S，S 类 型 为 zend_string* > 
不 会 增加 s 的 refcount， 支 持 interned strings 

ZVAL NEW _STR(z, s): FIZVAL_STR(z, s)，s 为 普通 字符 串 ， 不 支持 interned 
strings 

ZVAL_STR_COPY(z, s): 将 s 找 贝 到 z 的 value，Ss 类 型 为 zend_string*， 同 
ZVAL_STR(z, s)， 这 里 会 增加 s 的 refcount 

ZVAL _ARR(z, a): 设置 为 数组 ，a 类 型 为 zend_array* 

ZVAL_NEW_ARR(z): 新 分 配 一 个 数组 ， 主 动 分 配 一 个 zend_array 
ZVAL_NEW_PERSISTENT_ARR(z): 创建 持久 化 数组 ， 通 过 malloc 分 配 ， 需 
要 手动 释放 


e ZVAL_OBJ(z, oi: 设置 为 对 象 ，0 类 型 为 zend_object* 

e。ZVAL_RES(z, r): 设置 为 资源 ，r 类 型 为 Zend_resource* 

。ZVAL_NEW_RES(z, h, p, t): 新 创建 一 个 资源 ，h 为 资源 handle，t 为 type，p 为 
资源 ptr 指 向 结构 

e ZVAL_REF(z, r): 设置 为 引用 ，r 类 型 为 zend_reference* 

。ZVAL_NEW_EMPTY_REF(z): 新 创建 一 个 空 引 用 ， 没 有 设置 具体 引用 的 value 

。ZVAL_NEW_REF(z, r): 新 创建 一 个 引用 ，[ 为 引用 的 值 ， 类 型 为 Zzval* 


7.7.2 获取 zval 的 值 及 类 型 


ZVal 的 类 型 通过 Z_TYPE(zval) ` Z_ TYPE_P(zval*) 两 个 宏 获取 ， 这 个 值 取 的 就 
是 zval.ul.v.type ， 但 是 设置 时 不 要 只 修改 这 个 type， 而 是 要 设置 typeinfo > 
为 zval 还 有 其 它 的 标识 需要 设置 ， 比 如 是 否 使 用 引用 计数 、 是 否 可 被 垃圾 回收 、 是 
否 可 被 复制 等 等 。 


内 核 提 供 了 Z_XXX(zval) `œ Z XXX_P(zval*) 系列 的 宏 用 于 获取 不 同类 型 zval 的 
value ° 


e Z_LVAL(zval) ` Z_LVAL_P(zval_p): 返回 zend_ long 

e Z_DVAL(zval) ` Z_DVAL_P(zval_p): % © double 

e Z_STR(zval) ` Z_STR_P(zval_p): % Œ zend_string* 

e Z_STRVAL(zval) ` Z_STRVAL_P(zval_p): %4 5 char* > PP : zend_string->val 

e Z _ STRLEN(zval) ` Z_STRLEN_P(zval_p): 获取 字符 串 长 度 

e Z STRHASH(zval) ` Z_STRHASH_P(zval_p): 获取 字符 串 的 哈 希 值 

e Z_ARR(zval) ` Z_ARR_P(zval_p) ` Z_ ARRVAL(zval) ` 
Z ARRVAL P(zval_p): 返回 zend_array* 

e Z_OBJ(zval) ` Z_OBJ_P(zval_p): 返回 zend_object 

e Z OBJ_HT(zval) ` Z OBJ_HT_P(zval_p): 返回 对 象 的 
zend_object_handlers > PPzend_object->handlers 

e Z OBJ_HANDLER(zval, hf) ` Z OBJ_HANDLER_P(zv_p, hf): 获取 对 象 各 
操作 的 handler 指 针 ，hf 为 write_property、read _ property 等 ， 注 意 : 这 个 宏 取 
到 的 为 只 读 ， 不 要 试图 修改 这 个 值 (如 : Z_OBJ_HANDLER(obj， 
write_property) = xxx;)， 因 为 对 象 的 handlers 成 员 前 加 了 const 修 饰 符 

e Z OBJCE(zval) ` Z_OBJCE_P(zval_p): 返回 对 象 的 zend_class_entry* 

e Z_OBJPROP(zval) ` Z_OBJPROP_P(zval_p): 获取 对 象 的 成 员 数 组 

e Z_RES(zval)、Z_RES_P(zval_p): 返回 zend_resource* 


e Z RES_HANDLE(zval) ` Z RES HANDLE Pizval pi: 返回 资源 handle 
e Z RES_TYPE(zval) ` Z RES TYPE Pizval pi 返回 资源 type 

e Z RES_VAL(zval) ` Z RES VAL _P(zval_p): 返回 资源 ptr 

e Z_REF(zval) ` Z_REF_P(zval_p): 巡回 zend_reference* 

e Z REFVAL(zval) ` Z REFVAL_P(zval_p): 返回 引用 的 zval* 


除了 这 些 与 PHP 变 量 类 型 相关 的 宏 之 外 ， 还 有 一 些 内 核 自 己 使 用 类 型 的 宏 : 
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#define Z_INDIRECT(zval) 
#define Z_INDIRECT_P(zval_p) 


#define Z_CE(zval) 
#define Z_CE_P(zval_p) 


#define Z_FUNC(zval) 
#define Z_FUNC_P(zval_p) 


#define Z_PTR(zval) 
#define Z_PTR_P(zval_p) 


7.7.3 类 型 转换 


(ZzZval) .value.zv 
Z_INDIRECT(*(zval_p)) 


(zval).value.ce 
Z_CE(*(zval p)) 


(ZzZval) .value.func 
Z_FUNC(*(zval_p)) 


(zval).value.ptr 
Z_PTR(*(zval_p)) 


// 将 原 类 型 转 为 特定 类 型 ， 会 更 改 原来 的 值 

ZEND_API void ZEND FASTCALL Convert to long(zval *op); 

ZEND_API void ZEND FASTCALL Convert to double(zval *op); 
ZEND_API void ZEND_FASTCALL convert Co Long baseizval *op, int b 
ase); 

ZEND_API void ZEND_FASTCALL convert_to_null(zval *op); 

ZEND_API void ZEND_FASTCALL convert_to_boolean(zval *op); 
ZEND_API void ZEND_FASTCALL convert_to_array(zval *op); 

ZEND_API void ZEND_FASTCALL convert_to_object(zval *op); 


#define convert_to_cstring(op) if (Z_TYPE_P(op) != IS_STRING) { 
_convert_to_cstring((op) ZEND_FILE_LINE_CC); } 

#define convert_to_string(op) if (LZ TYPE_P(op) != IS_STRING) { _ 
convert_to_string((op) ZEND_FILE_LINE_CC); } 








// 获 取 格 式 化 为 1ong 的 值 ， 不 会 更 改 原 来 的 值 ，0p 类 型 为 ZValL*， 返 回 值 为 zend_ Long 


#define zval oer long(op) _zval_ oer long((op)) 

// 获 取 格 式 化 为 doub1e 的 值 ， 返 回 值 doub1le 

#define zval get double(op) _zval_get_double((op)) 
// 获 取 格 式 化 为 string 的 值 ， 返回 值 zend_string * 

#define zval oer string(op) _zval oer string( (op)) 


// 字 符 串 转 整形 

ZEND ARPT int ZEND EASTCALL zeng atoi(const char str int str Le 
n); 

ZEND_API zend_long ZEND_FASTCALL zend_atol(const char *str, int 
str_len); 


// 判 断 是 否 为 true 
#define zval_is_true(op) \ 
zend_is_true(op) 


EJE 


7.7.4 引用 计数 


在 扩展 中 操作 与 PHP 用 户 空间 相关 的 变量 时 需要 考虑 是 否 需要 对 其 引用 计数 进行 加 
减 ， 比 如 下 面 这 个 例子 : 


function test($arr){ 
return $arr; 


$a = array(1,2); 
$b = test($a); 


如 果 把 函数 test() 用 内 部 函数 实现 ， 这 个 函数 接受 了 一 个 PHP 用 户 空 间 传 入 的 数组 参 
数 ， 然 后 又 返回 并 赋值 给 了 户 空间 的 另外 一 个 变量 ， 这 个 时 候 就 需要 增加 传 
入 数组 的 refcount ， 因 为 这 个 数组 由 PHP 用 户 空间 分 配 ， 兄 数 调用 前 refcount=1， 
传 到 内 部 郊 数 时 相当 于 赋值 给 了 函数 的 参数 ， 因 此 refcount 增 加 了 1 变 为 2， 这 次 增 
加 在 流 数 执行 完 释 放 参 数 时 会 减 挤 ， 等 返回 并 赋值 给 $b 后 此 时 共有 两 个 变量 指向 这 
个 数组 ， 所 以 内 部 郊 数 需要 增加 refcount， 增 加 的 引用 是 给 返回 值 的 。test() 翻 译 成 
内 部 函数 : 


PHP_FUNCTION( test) 
{ 


zval *arr; 


if(zend_parse_parameters(ZEND_NUM_ARGS(), "a", &arr) == FAIL 
URE) { 
RETURN_FALSE; 


} 


// 如 果 注 释 择 下面 这 名 将 导致 core dumped 
Z_TRY_ADDREF_P(arr); 


RETURN_ARR(Z_ARR_P(arr)); 


e 在 哪些 ' eg N 操作 的 是 与 PHP 用 

空间 相关 的 变量 ， 包 括 对 用 户 空间 变量 的 修改 、 赋 值 ， 要 明确 的 一 点 是 引用 计数 
SEI 
需要 考虑 下 是 不 是 要 修改 引用 计数 ， 下 面 总 结 下 PHP 中 常见 的 会 对 引用 计数 进行 操 
作 的 情况 : 


e (1 人 1) 变量 赋值 : 变量 赋值 是 最 常见 的 情况 ， 一 个 用 到 引用 计数 的 变量 类 型 在 初始 
赋值 时 其 refcount=1， 如 果 后 面 把 此 变量 又 赋值 给 了 其 他 变量 那么 就 会 相应 的 
增加 其 引用 计数 


o (2) 数 组 操作 : 如 果 把 一 个 变量 插入 数组 中 那么 就 需要 增加 这 个 变量 的 引用 计 
数 ， 如 果 要 删除 一 个 数组 元 素 则 要 相应 的 减少 其 引用 

。 (3) 函 数 调用 : 传 参 实 际 可 以 当做 普通 的 变量 赋值 ， 将 调用 空间 的 变量 赋值 给 
被 调 函 数 空间 的 变量 ， 函 数 返回 时 会 销毁 函数 空间 的 变量 ， 这 时 又 会 减 掉 传 参 
的 引用 ， 这 两 个 过 程 由 内 核 完 成 ， 不 需要 扩展 自己 处 理 

e (4) 成 员 属性 : 当 把 一 个 变量 赋值 给 对 象 的 成 员 属性 时 需要 增加 引用 计数 


PHP 中 定义 了 以 下 宏 用 于 引用 计数 的 操作 : 


J zval” 


#define Z REFCOUNT_P(pz) zval_refcount_p(pz) 


#define Z SET REFCOUNT_P(pz, rc) Zval set refcount_p(pz, rc) 


/ / 2 haB] 


#define Z_ADDREF_P(pz) zval_addref_p(pz) 

#define Z_DELREF_P(pz) zval_delref_p(pz) 

#define Z REFCOUNT(z) Z_REFCOUNT_P(&(z) ) 

#define Z SET_REFCOUNT(z, rc) Z_SET_ REFCOUNT_P(&(z), rc) 
#define Z ADDREF(z) Z_ADDREF_P(&(z)) 

#define Z DELREF(z) Z_DELREF_P(&(z)) 


#define Z_TRY_ ADDREF P(pz) do { 
if (Z_REFCOUNTED_P((pz))) { 
Z_ADDREF_P((pz)); 
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} 
} while (0) 


#define Z_TRY_DELREF_P(pz) do { 
if (Z_REFCOUNTED_P((pz))) { 
Z DELREF_P((pz)); 
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} 
} while (0) 


#define Z_TRY_ADDREF(z) Z_TRY_ADDREF_P(&(z)) 
#define Z_TRY_DELREF(z) Z_TRY_DELREF_P(&(z)) 


些 宏 操 作 类 型 都 是 zval 或 zval*， 如 果 需 要 操作 具体 value 的 引用 计数 可 以 使 用 以 下 


// 直 接 获 取 zend_value 的 引用 ， 可 以 直接 通过 这 个 宏 修改 value 的 refcount 
#define GC REFCOUNT(p) (p)->gc.refcount 


另外 还 有 几 个 常用 的 宏 : 


// 判 断 zVal 有 是否 用 到 引用 计数 机 制 


#define Z REFCOUNTED(zval) ((Z_TYPE_FLAGS(zval) & IS_T 
YPE_REFCOUNTED) != 0) 
#define Z_REFCOUNTED_P(zval_p) Z_REFCOUNTED(*(zval_p)) 


// 根 据 zval 获 取 value 的 zend_refcounted 头 部 
#define Z_COUNTED(zval) (zval).value.counted 
#define Z_COUNTED_P(zval_p) Z_COUNTED(*(zval_p)) 


7.7.5 字符 串 操 作 


PHP 中 字符 串 ( 即 : zend _string) 操 作 相关 的 宏 及 函数 : 


// 创 建 zend_string 
zendnstring  zendí string init(const charn stresilze Rn Ee mtp 
ersistent); 


// 字 符 串 复制 ， 只 增加 引用 
zend String "zeng String eopy(zendi String "el: 


// 字 符 串 拷贝 ， 硬 拷贝 
zend String *zend_ string dup(zend string "e, int persistent); 


// 将 字符 串 按 len 大 小 重新 分 配 ， 会 减少 s 的 refcount， 返 回 新 的 字符 串 
zend string “zendastringrealloc(zend string "e, size t len, int 
persistent); 


// 延 长 字符 串 ， 与 zend_string_realloc() 类 似 ， 不 同 的 是 len 不 能 小 于 s 的 长 度 
zend string "zeng string evtendizend string "e, size t len, int 
persistent); 


N 


// 截 断 字符 串 ， 与 zend_string_realloc() 类 似 ， 不 同 的 是 1en 不 能 大 于 s 的 长 度 
zend String "zeng etting Cruncateizend String "e: Stzet len mt 
persistent); 


// 获 取 字 符 串 refcount 
uint32_t zend_string_refcount(const zend string Zei: 


// 增 加 字符 串 refcount 
uint32_t zend_string addref(zend string Zei: 


// 减 少 字 符 串 refcount 
uint32_t zend_string_delref(zend_string Zei: 


// 释 放 字 符 串 ， 减 少 refcount， 为 6 时 销毁 
void zend string release(zend String "ei: 


// 销 毁 字 符 串 ， 不 管 引 用 计数 是 否 为 9 
void zend string free(zend_ string "el: 


// 比 较 两 个 字符 串 是 否 相等 ， 区 分 大 小 写 ，memcmp( ) 
zend bool zeng string egualsizend string sl zeng String "ezi: 


// 比 较 两 个 字符 串 是 否 相等 ， 不 区 分 大 小 写 
#define zend_string_equals_ci(s1, s2) \ 

(ZSTR_LEN(s1) == ZSTR_LEN(s2) Së !zend binary_strcasecmp(ZST 
R_VAL(s1), ZSTR_LEN(s1), ZSTR_VAL(s2), ZSTR_LEN(s2))) 


// 其 它 宏 ，Zstr 类 型 为 Zend_string* 

#define ZSTR_VAL(zstr) (zstr)->val // 获 取 字 符 串 

#define ZSTR_LEN(zstr) (zstr)->len // 获 取 字 符 串 长 度 

#define ZSTR_H(zstr) (zstr)->h  // 获 取 字 符 串 哈 希 值 

#define ZSTR_HASH(zstr) zend_string_hash _val(zstr) // 计 算 字 符 串 哈 


希 值 
TE 


除了 上 面 这 些 ， 还 有 很 多 字符 串 大 小 转换 、 字 符 串 比较 的 API 定 义 在 
zend_operators.h 中 ， 这 里 不 再 列举 。 


7.7.6 数组 操作 


7.7.6.1 创建 数组 


创建 一 个 新 的 HashTable 分 为 两 步 : 首先 是 分 配 zend_array 内 存 ， 这 个 可 以 通 
过 ZVAL_NEW_ARR() 宏 分 配 ， 也 可 以 自己 直接 分 配 ; 然后 初始 化 数组 ， 通 
过 zend_hash_init() 宏 完 成 ， 如 果 不 进行 初始 化 数组 将 无 法 使 用 。 


#define zend_hash init(ht, nSize, pHashFunction, pDestructor, pe 
rsistent) \ 

zend_hash_init((ht), (nSize), (pDestructor), (persistent) Z 
END_FILE_LINE_CC) 








e ht: 数组 地 址 HashTable*， 如 果 内 部 使 用 可 以 直接 通过 emalloc 分 配 

e nSize: 初始 化 大 小 ， 只 是 参考 值 ， 这 个 值 会 被 对 齐 到 2^n， 最 小 为 8 

。pHashFunction : 无 用 ， 设 置 为 NULL 即 可 

e pDestructor ` 删除 或 更 新 数组 元 素 时 会 调用 这 个 函数 对 操作 的 元 素 进行 处 
理 ， 比 如 将 一 个 字符 串 插 入 数组 ， 字 符 串 的 refcount 增 加 ， 删 除 时 不 是 简单 的 
将 元 素 的 Bucket 删 除 就 可 以 了 ， 还 需要 对 其 refcount 进 行 处 理 ， 这 个 函数 就 是 
进行 清理 工作 的 

e persistent: 是 否 持 久 化 


示例 : 
zval array; 
uints2 mt size; 


ZVAL_NEW_ARR(&array); 
zend_hash_init(Z_ARRVAL(array), size, NULL, ZVAL_PTR_DTOR, 0); 
7.7.6.2 插入 、 更 新 元 素 


数组 元 素 的 插入 、 更 新 主要 有 三 种 情况 : key 为 zend _string、key 为 普通 字符 串 、 
key 为 数值 索引 ， 相 关 的 宏 及 函数 : 


// 播 入 或 更 新 元 素 ， 会 增加 key 的 refcount 
#define zend_hash_update(ht, key, pData) \ 
zend_hash_update(ht, key, pData ZEND_FILE_LINE_CC) 








// 揪 入 或 更 新 元 素 ， 当 Bucket 类 型 为 Indirect 时 ， 将 pData 更 新 至 Indirect 的 值 ， 

而 不 是 更 新 Bucket 

#define zend bach update ind(ht, key, pData) \ 
zend_hash_update_ind(ht, key, pData ZEND_FILE LINE CC) 








// 添 加 元 素 ， 与 zend_hash_update() 类 似 ， 不 同 的 地 方 在 于 如 果 元 素 已 经 存在 则 不 
会 更 新 
#define zend_hash_add(ht, key, pData) \ 

zend_hash_add(ht, key, pData ZEND_FILE_LINE_CC) 








// 直 接 插 入 元 素 ， 不 管 key 存 在 与 否 ， 如 果 存 在 也 不 复 盖 原来 元 素 ， 而 是 当做 哈 希 冲突 
处 理 ， 所 有 会 出 现 一 个 数组 中 Key 相同 的 情况 ， 惯 用 1411 


#define zend_hash_add_new(ht, key, pData) \ 
zend_hash_add_new(ht, key, pData ZEND_FILE_LINE_CC) 








// 2) key 为 普通 字符 串 : char* 


// 与 上 面 几 个 对 应 ， 这 里 的 key 为 普通 字符 串 ， 会 自动 生成 zend_string 的 key 
#define zend_hash_str_update(ht, key, len, pData) \ 
zend_hash_str_update(ht, key, len, pData ZEND_FILE_LINE 





TCC) 
#define zend_hash_str_update_ind(ht, key, len, pData) \ 
zend_hash_str_update_ind(ht, key, len, pData ZEND_FILE_ 





LINE_CC) 
#define zend_hash_str_add(ht, key, len, pData) A 
zend_hash_str_add(ht, key, len, pData ZEND_FILE_LINE_CC) 








#define zend_hash_str_add_new(ht, key, len, pData) \ 
zend_hash_str_add_new(ht, key, len, pData ZEND_FILE_LIN 








ERCE) 
// 3) key 为 数值 索引 
// 播 入 元 素 ，h 为 数值 


#define zend_hash_index_add(ht, h, pData) \ 
zend_hash_index_add(ht, h, pData ZEND_FILE_LINE_CC) 








// 与 zend_hash_add_new( ) 类似 
#define zend_hash_index_add_new(ht, h, pData) \ 
zend_hash_index_add_new(ht, h, pData ZEND_FILE_LINE_CC) 








// 更 新 第 h 个 元 素 
#define zend_hash_index_update(ht, h, pData) \ 
zend_hash_index_update(ht, h, pData ZEND_FILE_LINE_CC) 








// 使 用 自动 去 引信 


#define zend_hash_next_index_insert(ht, pData) 和 
zend_hash_next_index_insert(ht, pData ZEND_FILE_LINE_CC) 











#define zend_hash_next_index_insert_new(ht, pData) \ 
zend_hash_next_index_insert_new(ht, pData ZEND_FILE_LIN 








E_CC) 


= 
7.7.6.3 查找 元 素 


7.7 zval 的 操作 


// 根 据 zend_string key 查 找 数组 元 素 
ZEND_API zval* ZEND FASTCALL zend_hash find(const HashTable "br, 
zend_string *key); 


// 根 据 普通 字符 串 Key 查 找 元 素 
ZEND_API zval* ZEND_FASTCALL zend_hash_str_find(const HashTable 
EES char “key, size t Ten); 


// 获 取 数 值 索引 元 素 
ZEND_API zval* ZEND FASTCALL zend_hash index_find(const HashTabl 
e "bt, zend ulong h); 


// 判 断 元 素 是 否 存 在 

ZEND_API zend bool ZEND_FASTCALL zend_hash_exists(const HashTabl 
e *ht, zend_string *key); 

ZEND_API zend_bool ZEND_FASTCALL zend_hash_str_exists(const Hash 
Table "ht, const char *str, size t len); 

ZEND_API zend_bool ZEND_FASTCALL zend_hash_index_exists(const Ha 
shTable "ht, zend_ulong h); 





// 获 取 数 组 元 素数 

#define zend_hash_num_elements(ht) \ 
(ht)->nNumOofElements 

// 与 zend_hash_num_elements() 类 似 ， 会 有 一 些 特 殊 处 理 

ZEND_API uint32_t zend_array_count(HashTable *ht); 


7.7.6.4 删除 元 素 
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7.7 zval 的 操作 


// 删 除 Key 
ZEND_API int ZEND_FASTCALL zend_hash_del(HashTable *ht, zend_str 
ing *key); 





// 与 zend_hash_del1() 类 似 ， 不 同 地 方 是 如 果 元 素 类 型 为 Indirect 则 同时 销毁 indi 
rect 的 值 

ZEND_API int ZEND_FASTCALL zend_hash_del_ind(HashTable *ht, zend 

String *key); 

ZEND_API int ZEND_FASTCALL zend_hash_str_del(HashTable "hr, const 
char "key, size_t len); 

ZEND_API int ZEND FASTCALL zend hash str del ind(HashTable "br, 
const char *key, size_t len); 

ZEND_API int ZEND_FASTCALL zend_hash_index_del(HashTable "hr, ze 
nd ulong bi: 

ZEND_API void ZEND_FASTCALL zend_hash_del_bucket(HashTable "br, 
Bucket "pi: 


[ER 





7.7.6.5 3&7 


数组 遍历 类 似 foreach 的 用 法 ， 在 扩展 中 可 以 通过 如 下 的 方式 遍 


zval *Val 
ZEND_HASH_FOREACH_VAL(ht, val) { 


} ZEND_HASH_FOREACH_END(); 


遍历 过 程 中 会 把 数组 元 素 赋值 给 Val， 除 了 上 面 这 个 宏 还 有 很 多 其 他 用 于 遍历 的 宏 ， 
这 里 列 几 个 比较 常用 的 : 
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#define ZEND_ HASH_FOREACH_ NUM KEY(ht, _h) \ 
ZEND_HASH_FOREACH(ht, 0); \ 
_h = _p->h; 


#define ZEND_HASH_FOREACH_STR_KEY(ht, _key) \ 
ZEND_HASH_FOREACH(ht, 0); \ 
key = _p->key; 


#define ZEND_HASH_FOREACH_KEY(ht, _h, _key) \ 
ZEND_HASH_FOREACH(ht, ©); \ 
WE > N 
key = _p->key; 


#define ZEND_HASH_FOREACH_NUM_KEY_VAL(ht, _h, _val) \ 
ZEND_HASH_FOREACH(ht, 0); A 
_h = _p->h; \ 
val = Z; 


#define ZEND_HASH_FOREACH_STR_KEY_VAL(ht, _key, _val) \ 
ZEND_HASH_FOREACH(ht, 0); \ 
_key = _p->key; \ 
Ve ez: 





#define ZEND HAGH FOREACH KEY MALIht, bh _key, _val) \ 
ZEND_HASH_FOREACH(ht, ©); A 
_h = _p->h; \ 
_key = _p->key; \ 


val = Z; 


7.7.6.6 其 它 操作 


Bi 


// 全 并 两 个 数组 ， 将 source 合 并 到 target ，overwrite 为 元 素 冲 突 时 是 否 窗 盖 
#define zend_hash merge(target, source, pCopyConstructor, overwr 
ite) \ 
zend_hash merge(target, source, pCopyConstructor, overwrite 
ZEND_FILE LINE CC) 








// 导 出 数组 
ZEND_API HashTable* ZEND_FASTCALL zend_array_dup(HashTable *sour 
ce); 


#define zend_hash_sort(ht, compare_func, renumber) \ 
zend_hash_sort_ex(ht, zend_sort, compare_func, renumber) 





数组 排序 ，compare_func 为 typedef int (compare_func_t) (const void , const void 
)， 需 要 自己 定义 比较 函数 ， 参 数 类 型 为 Bucket，renumber 表 示 是 否 更 改 键 值 ， 如 
果 为 1 则 会 在 排序 后 重新 生成 各 元 素 的 h。PHP 中 的 sort()、rsort()、ksort() 等 都 是 基 
于 这 个 函数 实现 的 。 


7.7.6.7 销毁 数组 


ZEND_API void ZEND_FASTCALL zend_array_destroy(HashTable *ht); 


7.8 常量 


常量 的 具体 实现 前 面 章节 已 经 介绍 过 ， 这 里 不 再 重复 。PHP 提 供 了 很 多 用 于 常量 注 
册 的 宏 ， 可 以 在 扩展 的 PHP_MINIT_FUNCTION() 中 定义 : 


E 册 NULL 第 量 
#define REGISTER NULL _ CONSTANT(name, flags) \ 
zend_register_null constant((name), sizeof(name)-1, (flags), 
module_number) 


// 注 册 boo1 常 量 

#define REGISTER BOOL CONSTANT(name, bval, flags) A 
zend_register_ bool constant((name), sizeof(name)-1, (bval), 

(flags), module number) 


#define REGISTER LONG CONSTANT(name, lval, flags) A 
Zend register Long constant((name), sizeof(name)-1, (lval), 
(flags), module number) 


#define REGISTER DOUBLE CONSTANT(name, dval, flags) A 
zend_register_double constant((name), sizeof(name)-1, (dval) 
, (flags), module_number) 
#define REGISTER_STRING_CONSTANT (name, str, flags) \ 
zend_register_string_constant((name), sizeof(name)-1, (str), 
(flags), module_number) 


#define REGISTER_STRINGL_CONSTANT (name, str, len, flags) \ 
zend_register_stringl_constant((name), sizeof(name)-1, (str) 
, (len), (flags), module_number) 


余 了 上 面 这些 还 有 REGISTER_NS_XXX 系列 的 宏 用 于 带 namespace 的 常量 注册 ， 另 
Sg 这 些 类 型 不 能 满足 需求 ， 则 可 以 通 
过 zend_register_constant(zend_constant *c) 注册 ， 比 如 常量 类 型 为 数组 。 


PHP_MINIT_FUNCTION(mytest) 
{ 


REGISTER_STRING_CONSTANT("MY_CONS_1", "this is a constant", 
CONST_CS | CONST_PERSISTENT ) ; 


} 
echo MY_CONS 1: 


this is a constant 


如 果 在 扩展 中 需要 用 到 其 他 扩展 或 内 核定 义 的 常量 ， 则 可 以 通过 以 下 遂 数 获取 常量 
的 值 : 


ZEND_API zval *zend oer constant(zend _ string *name); 
ZEND ABT zval "end gert Constant str(const char “name size t na 
me Leni: 


8.1 概述 


什么 是 命名 空间 ? 从 广义 上 来 说 ， 命 名 空间 是 一 种 封装 事物 的 方法 。 在 很 多 地 方 都 
可 以 见 到 这 种 抽象 概念 。 例 如 ， 在 操作 系统 中 目录 用 来 将 相关 文件 分 组 ， 对 于 目录 
中 的 文件 来 说 ， 它 就 扮演 了 命名 空间 的 角色 。 具 体 举 个 例子 ， 文 件 foo.txt 可 以 同时 
在 目录 /home/greg 和 /home/other 中 存在 ， 但 在 同一 个 目录 中 不 能 存在 两 个 foo.txt 
文件 。 另 外 ， 在 目录 /home/greg 外 访问 foo.txt 文件 时 ， 我 们 必须 将 目录 名 以 及 目 
录 分 隔 符 放 在 文件 名 之 前 得 到 /home/greg/foo.txt。 这 个 原理 应 用 到 程序 设计 领域 就 
是 命名 空间 的 概念 。( 引 用 自 php.net) 


命名 空间 主要 用 来 解决 两 类 问题 : 


e 用 户 编写 的 代码 与 PHP 内 部 的 或 第 三 方 的 类 、 函 数 、 常 量 、 接 口 名 字 冲 突 

e 为 很 长 的 标识 符 名 称 创建 一 个 别名 的 名 称 ， 提 高 源 代码 的 可 读 性 
PHP 命 名 空间 提供 了 一 种 将 相关 的 类 、 函 数 、 常 量 和 接口 组 合 到 一 起 的 途径 ， 不 同 
命名 空间 的 类 、 函 数 、 常 量 、 接 口 相 互 隔离 不 会 冲突 ， 注 意 : PHP 命 名 空间 只 能 隔 
离 类 、 函 数 、 常 量 和 接口 ， 不 包括 全 局 变量 。 
接 下 来 的 两 节 将 介绍 下 PHP 命 名 空间 的 内 部 实现 ， 主 要 从 命名 空间 的 定义 及 使 用 两 
个 方面 分 析 。 


8.2 命名 空间 的 定义 


8.2.1 定义 语法 


命名 空间 通过 关键 字 namespace 来 声明 ， 如 果 一 个 文件 中 包含 命名 空间 ， 它 必须 
在 其 它 所 有 代码 之 前 声明 命名 空间 ， 除 了 declare 关 键 字 以 外 ， 也 就 是 说 除 declare 
之 外 任何 代码 都 不 能 在 namespace 之 前 声明 。 另 外 ， 命 名 空间 并 没有 文件 限制 ， 可 
以 在 多 个 文件 中 声明 同一 个 命名 空间 ， 也 可 以 在 同一 文件 中 声明 多 个 命名 空间 。 


namespace com\aa; 
const MY_CONST = 1234; 


fünecronimy Anunce) E 
cilassimysclas EE E 


另外 也 可 以 通过 人 将 类 、 函 数 、 常 量 封装 在 一 个 命名 空间 下 : 


namespace com\aa{ 
const MY_CONST = 1234; 
MINCE TONTMY ARUNC R e ER, 
elass myaclass m mE 


但 是 同一 个 文件 中 这 两 种 定义 方式 不 能 混用 ， 下 面 这 样 的 定义 将 是 非法 的 : 


namespace com\aa{ 
Ze E 


namespace com\bb; 
E 


RAA RURA EH o MAX ` äi REELED” 5 
RE 空间 概念 前 一 样 。 


8.2.2 内 部 实现 


命名 空 E 当 声 明了 一 个 命名 空间 后 ， 接 下 来 编译 类 、 函 数 和 

常量 时 会 把 类 名 、 函 数 名 和 常量 名 统一 加 上 命名 空间 的 名 称 作 为 前 级 存储 ， 也 就 是 

UP EE aa 量 的 实际 名 称 是 被 修改 过 的 ， 这 样 来 看 他 们 与 
普通 的 定义 方式 是 没有 区 别 的 ， 只 是 这 个 前 级 是 内 核 帮 有 我 们 自动 添加 的 ， 例 如 : 


//ns_define.php 
namespace com\aa; 


const MY_CONST = 1234; 
Elte ek el El Æ UNCA 
el KE E E /9 3 E, 


最 终 MY_CONST、my _func、my_class 在 EG(zend_constants)、 
EG(function_table)、EG(class_table) 中 的 实际 存储 名 称 被 修改 为 : 
com\aa\MY CONST ` com\aa\my_func ` com\aa\my_class ° 


下 面具 体 看 下 编译 过 程 ，namespace 语 法 被 编译 为 ZEND_AST_NAMESPACE 类 型 
的 语法 树 节点 ， 它 有 两 个 子 节点 : child[0] 为 命名 空间 的 名 称 、child[1] 为 通过 人 方式 
ELET EL RAJA o 


kind:ZEND_AST_NAMESPACE 
过 
kind:ZEND_AST ZVAL kind:ZEND_AST_STMT_LIST 
“com\aa” 如 果 不 是 通过 namespace xx {...} 


声明 的 则 此 节点 为 空 





此 节点 的 编译 函数 为 zend_compile_namespace() : 


void zend comptle namespace(zend aset *ast) 

{ 
zend_ast *name ast = ast->child[0]; 
zend_ast *stmt_ast = ast->child[1]; 
zend_string *name; 
zend_bool with_bracket = stmt_ast != NULL; 


// 检 查 声 明 方式 ， 不 允许 {} 与 非 {} 混 用 


if (FC(current namespace)) { 
zend_string_release(FC(current_namespace)); 


if (name_ast) { 
name = zend_ast_get_str(name_ast); 


if (ZEND_FETCH_CLASS_DEFAULT != zend_get_class_fetch_typ 

e(name)) { 
zend_error_noreturn(E_COMPILE_ERROR, "Cannot use '%s 

' as namespace name", ZSTR_VAL(name)); 

} 

// 将 命名 空间 名 称 保存 到 FC (current_namespace) 

FC(current_namespace) = zend_string_copy(name); 

} else { 
FC(current_namespace) = NULL; 


// 重 置 USe 导 入 的 命名 空间 符号 表 


zend_reset import_tables(); 


if (stmt _ ast) { 


// 如 果 是 通过 namespace xxx { ..，} 这 种 方式 声明 的 则 直接 编译 {} 中 
AJTE aJ 
zend_compile_top_stmt(stmt_ast); 
zend_end_namespace(); 
} 


从 上 面 的 编译 过 程 可 以 看 出 ， 命 名 空间 定义 的 编译 过 程 非常 简单 ， 最 主要 的 操作 是 
把 FC(current_namespace) 设 置 为 当前 定义 的 命名 空间 名 称 ，FC() 这 个 宏 

为 :CG(file_context)， 前 面 曾 介 绍 过 ，file_context 是 在 编译 过 程 中 使 用 的 一 个 结 

构 : 


typedef struct _zend_file_context { 
zend_declarables declarables; 
znode implementing_class; 





// 当 前 所 属 namespace 
zend_string *current_namespace; 
// 是 否 在 namespace 中 


zend_bool in_namespace; 


// 23 gd nameepaceGO/ 3L 


zend_bool has bracketed namespaces; 
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HashTable *imports; 
HashTable *imports_function; 
HashTable *imports_const; 

} zend_file_context; 


编译 完 namespace 上 声明 语 多 后 接着 编译 下 面 的 语句 ， 此 后 定义 的 类 、 、 常 量 均 
属于 此 命名 空间 ， 直 到 遇 到 下 一 个 namespace 的 定义 ， 接 下 来 继续 文 三 种 类 
型 编译 过 程 中 有 何不 同 之 处 。 


(1) 编 译 类 、 函 数 


前 面 章节 曾 详细 介绍 过 函数、 类 的 编译 过 程 ， 总 结 下 主要 分 为 两 步 : 第 1 步 是 编译 
函数 、 类 ， 这 个 过 程 将 分 别 生成 一 条 ZEND_DECLARE_FUNCTION、 

ZEND DECLARE _CLASS 的 opcode ; 第 2 步 是 在 整个 脚本 编译 的 最 后 执行 

zend do_early_binding()， 这 一 步 相 当 于 执行 ZEND_DECLARE _FUNCTION、 
ZEND_DECLARE_CLASS ， 函数 、 类 正 是 在 这 一 步 注 册 到 EG(function_table)、 
EG(class_table) 中 去 的 。 


在 生成 ZEND_DECLARE FUNCTION、ZEND_DECLARE_CLASS 两 条 opcode 时 
会 把 函数 名 、 类 名 的 存储 位 置 通过 操作 数 记 录 下 来 ， 然 后 在 
zend do_early_binding() 阶 段 直接 获取 函数 名 、 类 名 作为 key 注 册 到 


EG(function_table)、EG(class_table) 中 ， 定 义 在 命名 空间 中 的 函数 、 类 的 名 称 修 
改正 是 在 生成 ZEND_DECLARE FUNCTION、ZEND_DECLARE_CLASS 时 完成 
的 ， 下 面 以 函数 为 例 看 下 具体 的 处 理 : 


// 亏 数 的 编译 方法 
void zend compile func decl(znode "result, zend ast *ast) 


{ 


// 生 成 函数 声明 的 opcode : ZEND_DECLARE_FUNCTION 
zend_begin_func decl(result, op_array, decl); 


static vordi zend begin Tune decliznode "result, zend op arrav "o 
p_array, zend ast decl decl) 


{ 


// RP e Sr 

op_array->function_name = name = zend_prefix_with_ns(unquali 
fied_name); 

lcname = zend_string_tolower (name); 


if (FC(imports_function)) { 
// 如 果 通 过 USe 导 入 了 其 他 命名 空间 则 检查 函数 名 称 是 
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} 


// 生 成 一 条 opcode ` ZEND_DECLARE_FUNCTION 

opline = get_next_op(CG(active_op_array)); 
opline->opcode = ZEND_DECLARE_FUNCTION; 

// 函 数 名 的 存储 位 置 记录 在 0p2 中 

opline->0p2_type = IS_CONST; 

LITERAL_ STR(opline->op2, zend_string_copy(lcname)); 


函数 名 称 通 过 zend_prefix_with_ns() 方 法 获取 : 


zend_string *zend prefix with nsizend String *name) { 
if (FC(current_namespace)) E 


Lei 


// 如 果 当 前 是 在 namespace 下 则 拼 上 namespace 名 称 作为 前 组 
zend_string *ns = EE 
return zend_concat_names(ZSTR_VAL(ns), ZSTR_LEN(ns), ZST 
R_VAL(name), ZSTR_LEN(name)); 
} else { 
return zend_string_copy(name); 


在 zend_prefix_ with_ns() 方 法 中 如 果 发 现 FC(current_ namespace) 不 为 空 则 将 函数 
名 加 上 FC(current_namespace) 作 为 前 级 ， 接 下 来 向 EG(function_table) 注 册 时 就 使 
用 修改 后 的 函数 名 作为 key， 类 的 情况 与 函数 的 处 理 方式 相同 ， 不 再 著述 。 


(2) 编 译 常量 


常量 的 编译 过 程 与 函数 、 类 基本 相同 ， 也 是 在 编译 过 程 获取 常量 名 时 检查 
FC(current_namespace) 是 否 为 室 ， 如 果 不 为 空 表示 常量 声明 在 namespace 下 ， 则 
为 常量 名 加 上 FC(current_namespace) 前 级 。 


总 结 下 命名 空间 的 定义 : 编译 时 如 果 发 现 定义 了 一 个 namespace ， 则 将 命名 空间 名 
称 保存 到 FC(current_namespace)， 编 译 类 、 函 数 、 常 量 时 先 判断 
FC(current_namespace) 是 否 为 室 ， 如 果 为 空 则 按 正常 名 称 编译 ， 如 果 不 为 空 则 将 
类 名 、 函 数 名 、 常 量 名 加 上 FC(current_namespace) 作 为 前 组， 然后 再 以 修改 后 的 
名 称 注 册 。 整 个 过 程 相当 于 PHP 帮 我 们 补 全 了 类 名 、 函 数 名 、 常 量 名 。 


命名 空间 的 使 用 
8.3.1 基本 用 法 


上 一 节 我 们 知道 了 定义 在 命名 空间 中 的 类 、 函 数 和 常量 只 是 如 上 了 namespace 名 称 
作为 前 级 ， 既 然 是 这 样 那么 在 使 用 时 加 上 同样 的 前 级 是 否 就 可 以 了 呢 ? 答案 是 肯定 
的 ， 比 如 上 面 那个 例子 : 在 comvaa 命 名 空间 下 定义 了 一 个 常量 MY_CONST， 那 么 
就 可 以 这 么 使 用 : 


include 'ns_define.php'; 


echo \com\aa\MY_CONST; 


RIR ERZ ` AAE EE EE o AAAA AA A 
别 ， 这 种 以 "开头 使 用 的 名 称 称 之 为 : 完全 限定 名 称 ， 类 似 于 绝对 目录 的 概念 ， 使 
用 这 种 名 称 PHP 会 直接 根据 "之 后 的 名 称 去 对 应 的 符号 表 中 查找 (namespace 定 义 
时 前 面 是 没有 加 "的 ， 所 以 查找 时 也 会 去 掉 这 个 字符 )。 


除了 这 种 形式 的 名 称 之 外 ， 还 有 两 种 形式 的 名 称 : 


e 非 限定 名 称 : 即 没 有 加 任何 namespace 前 组 的 普通 名 称 ， 比 如 my _func()， 使 用 
这 种 名 称 时 如 果 当 前 有 命名 空间 则 会 被 解析 为 ` currentnamespace\my _func， 
如 果 当 前 没有 命名 空间 则 按照 原始 名 称 my_func 解 析 

e 部 分 限定 名 称 : 即 包 含 namespace 前 级 ， 但 不 是 以 "开始 的 ， 比 如 : 
aa\my_func()， 类 似 相 对 路 径 的 概念 ， 这 种 名 称 解 析 规 则 比较 复杂 ， 如 果 当 前 
空间 没有 使 用 use 导 入 任何 namespace 那 么 与 非 限定 名 称 的 解析 规则 相同 ， 即 
如 果 当 前 有 命名 空间 则 会 把 解析 为 : currentnamespacevaamy func， 和 否则 解 
析 为 aa\my_func， 使 用 use 的 情况 后 面 再 作 说 明 


8.3.2 USe 叶 入 


使 用 一 个 命名 空间 中 的 类 、 函 数 、 常 量 虽 然 可 以 通过 完全 限定 名 称 的 形式 访问 ， 但 
是 这 种 方式 需要 在 每 一 处 使 用 的 地 方 都 加 上 完整 的 namespace 名 称 ， 如 果 将 来 
namespace 名 称 变更 了 就 需要 所 有 使 用 的 地 方 都 改 一 遍 ， 这 将 是 很 痛苦 的 一 件 事 ， 
为 此 ，PHP 提 供 了 一 种 命名 空间 导入 /别名 的 机 制 ， 可 以 通过 Use 关 键 字 将 一 个 命名 
空间 导入 或 者 定义 一 个 别名 ， 然 后 在 使 用 时 就 可 以 通过 导入 的 namespace 名 称 最 后 
一 个 域 或 者 别名 访问 ， 不 需要 使 用 完整 的 名 称 ， 比 如 : 


//ns_define. php 


namespace aa\bb\cc\dd; 


const MY_CONST = 1234; 


可 以 采用 如 下 几 种 方式 使 用 : 


SE 
include 'ns_define.php'; 


use aa\bb\cc\dd; 

echo dd\MY_CONST; 

UNTEN 2E 

include 'ns_define.php'; 

use aaxbbxcc ; 

echo cc\dd\MY_CONST; 

VU NSE 

include 'ns_define.php'; 

use aa\bb\cc\dd as DD; 

echo DD\MY_CONST; 

VUN Ki 

include 'ns_define.php'; 

use aa\bb\cc as CC; 

echo CC\dd\MY_CONST; 
这 种 机 制 的 实现 原理 也 比较 简单 : 编译 期 间 如 果 发 现 Use 语 句 ， 那 么 就 将 把 这 个 
Use 后 的 命名 空间 名 称 插入 一 个 哈 希 表 ` FC(imports)， 而 哈 希 表 的 key 就 是 定义 的 
别名 ， 如 果 没 有 定义 别名 则 key 使 用 按 "\" 分 割 的 最 后 一 节 ， 比 如 方式 2 的 情况 将 以 cc 
作为 key， 即 ` FC(imports)["cc"] = "aa\bb\cc\dd" ; 接 下 来 在 使 用 类 、 郊 数 和 常量 时 


会 把 名 称 按 "\" 分 割 ， 然 后 以 第 一 节 为 key 查 找 FC(imports)， 如 果 找 到 了 则 将 
FC(imports) 中 保存 的 名 称 与 使 用 时 的 名 称 拼接 在 一 起 ， 组 成 完整 的 名 称 。 实 际 上 这 


种 机 制 是 把 完 See 缩短 然后 缓存 下 来 ， 使 用 时 再 拼接 成 完整 的 名 称 ， 也 就 
是 内 核 帮 有 我们 组 装 了 名 称 ， 对 内 核 而 言 ， 最 终 使 用 的 都 是 包括 完整 namespace 的 名 
称 。 


FClimports)[ “cc” ] 


上 -rp 
use laal\lbb!\ ` ` | 
a ee 和 三 一 全 TT 一 
a SS aa Kä bb vi | cc ei | dd CH | MY _CONST | 
ea tt a 
使 用 lec | \ ldd! \ MY CONST | 4 


| | | | | 


| 


Use 除 了 上 面 介绍 的 用 法 外 还 可 以 导入 一 个 类 ， 寻 入 后 再 使 用 类 就 不 需要 加 
namespace 了 ， 倒 如 : 


//ns_define.php 
namespace aa\bb\cc\dd; 


el Ee E E E mT 


include 'ns_define.php™; 
E 

use aa\bb\cc\dd\my_class; 
// 直 接 使 用 

$obj = new my class() ， 
var_dump($obj); 


Use 的 这 两 种 用 法 实现 原理 是 一 样 的 ， 都 是 在 编译 时 通过 查找 FC(imports) 实 现 的 名 

称 补 全 。 从 PHP 5.6 起 ，Use 又 提供 了 两 种 针对 函数 、 常 量 的 导入 ， 可 以 通过 use 

function xxx 及 use const xxx 导入 一 个 函数 、 常 量 ， 这 种 用 法 的 实现 原理 与 

上 面 介绍 的 实际 是 相同 ， 只 是 在 编译 时 没有 保存 到 FC(imports)，zend_file_context 
结构 中 的 另外 两 个 哈 希 表 就 是 在 这 种 情况 下 使 用 的 : 


typedef struct _zend_file_context { 





// 用 于 保存 导入 的 类 或 命名 空间 
HashTable *imports; 
// 用 于 保存 导入 的 函数 
HashTable *imports_function; 
// 用 于 保存 导入 的 常量 
HashTable *imports_const; 

} zend_file_context; 

















简单 总 结 下 use 的 几 种 不 同 用 法 : 


e a. 导 入 命名 空间 : 导入 的 名 称 保存 在 FC(imports) 中 ， 编 译 使 用 的 语句 时 搜索 此 
符号 表 进 行 补 全 

e b. 导 入 类 : 导入 的 名 称 保存 在 FC(imports) 中 ， 与 a 不 同 的 是 不 会 根据 "切割 后 的 
最 后 一 节 检 索 ， 而 是 直接 使 用 类 名 查找 

e C. 导 入 函数 : 通过 use function 导入 到 FC(imports_function)， 补 全 时 先 查找 
FC(imports_function)， 如 果 没 有 找到 则 继续 按照 a 的 情况 处 理 

ed. 导入 常量 : 通过 use const 导入 到 FC(imports_const)， 补 全 时 先 查 找 
FC(imports_const)， 如 果 没 有 找到 则 继续 按照 a 的 情况 处 理 


use aa\bb; // 导 入 namespace 
use aa\bb\MY_CLASS; // 导 入 类 

use function aa\bb\my_func; //4A dë 

use const aa\bb\MY_CONST;  // 导 入 常量 


接 下 来 看 下 内 核 的 具体 实现 ， 首 先 看 下 use 的 编译 : 


void zend compile use(zend ast *ast) 
{ 

zend_string Zcurrent ns = FC(current_ namespace); 

//USEe 的 类 型 

Uint32_t type = ast->attr; 

// 根 据 类 型 获取 存储 哈 希 表 : FC(imports)、FC(imports_function)、FC(i 
mports_const) 

HashTable *current_ import = zend oer import_ht(type); 


//USE 可 以 同时 导入 多 个 

Tor (i = 0; i < list->children; ++i) { 
zend_ast *use_ast = list->child[i]; 
zend_ast *old_name_ast = use_ast->child[0]; 
zend_ast *new_name_ast = use_ast->child[1]; 
/VolLd_name 为 Use 后 的 namespace 名 称 ，new_name 为 as 定义 的 别名 
zend_string *old_name = zend_ast_get_str(old_name_ast); 
zend_string *new_name, *lookup_name; 


if (new_name_ast) { 
// 如 果 有 as 别名 则 直接 使 用 
new_name = zend_ string_copy(zend_ ast_get_str(new_nam 
e_ast)); 
} else { 
const char *unqualified_name; 
size_t unqualified_name_len; 
if (zend_get_unqualified_name(old_name, &unqualified 
_name, &unqualified_name_len)) { 
// 按 "\" 分 割 ， 取 最 后 一 节 为 new_name 
new_name = zend_string_init(unqualified name, un 
qualified name len, 0); 
} else { 
// 名 称 中 没有 "\" : use aa 


new_name = zend_string_copy(old_ name); 


} 


// 如 果 是 Use const 则 大 小 写 每 
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if (case_sensitive) { 
lookup_name = zend_string_copy(new_name); 
} else { 
lookup_name = zend_string_tolower(new_name); 


if (current_ns) { 


// 如 果 当 前 是 在 命名 空间 中 则 需要 检查 名 称 是 否 冲 突 


// 揪 入 FC(imports/imports_function/imports_const)，key 为 10 
okup_name ， value 为 0ld_name 


if (!zend_hash add ptr(current_ Import, Jookup name, old 


name)) { 


从 use 的 编译 过 程 可 以 看 到 ， 编 译 时 的 主要 处 理 是 把 use 寻 入 的 名 称 以 别名 或 最 后 分 
节 为 Key 存储 到 对 应 的 哈 希 表 中 ， 接 下 来 我 们 看 下 在 编译 使 用 类 、 函 数 、 常 量 的 语 
多 时 是 如 何 处 理 的 。 使 用 的 语法 类 型 比较 多 ， 比 如 类 的 使 用 就 有 new、 访 问 静 态 属 
性 、 调 用 静态 方法 等 ， 但 是 不 管 什么 语句 都 会 经 历 获取 类 名 、 函 数 名 、 常 量 名 这 一 
步 ， 类 名 的 补 全 就 是 在 这 一 步 完成 的 。 


(1) 补 全 类 名 


编译 时 通过 zend resolve _class_name() 方 法 进行 类 名 补 人 全， 如果 没 有 任何 
namespace 那 么 就 返回 原始 的 类 名 ， 比 如 编译 new my_class() 时 ， 首 先 会 

把 "my_class" 传 入 该 函数 ， 如 果 查 找 FC(imports) 后 发 现 是 一 个 use 导 入 的 类 则 把 补 
全 后 的 完整 名 称 返 回 ， 然 后 再 进行 后 续 的 处 理 。 


zend_string *zend resolve class name(zend _ string *name, uint32 t 


type) 
Char *compound; 
//"namespace\Xxxx\ 类 名 "这 种 用 法 表示 使 用 当前 命名 空间 


if (type == ZEND NAME RELATIVE) { 
return zend_prefix_with_ns(name); 


} 

// 完 全 限定 的 形式 : new \aa\bb\my_class() 

if (type == ZEND NAME FQ || ZSTR VAL(name)[0] == '\\') { 
if (ZSTR_VAL(name)[0] == '\\') { 


name = zend_string_init(ZSTR_VAL(name) + 1, ZSTR_LEN 
(name) - 1, 0); 
} else { 
zend_string_addref (name); 


return name; 


// 如 果 当 前 脚本 有 通过 Use 导 入 namespace 
if (FC(imports)) { 
compound = memchr(ZSTR_VAL(name), '\\', ZSTR_LEN(name)); 
if (compound) { 
// 1) 没有 直接 导入 一 个 类 的 情况 ， 用 法 a 
// 名 称 中 包括 "\"， 比 如 :new aa\bb\my_class() 
size_t len = compound - ZSTR_VAL(name); 
// 根 据 按 "\" 分 割 后 的 最 后 一 节 为 key 查 找 FC(imports) 
zend_string *import_name = 
zend_hash_find_ptr_lc(FC(imports), ZSTR_VAL(name 





), len); 
// 如 果 找 到 了 表示 通过 use 寻 入 了 namespace 
if (import_name) { 
return zend_concat_names( 
ZSTR_VAL(import_name), ZSTR_LEN(import_name) 
, ZSTR_VAL(name) + len + 1, ZSTR_LEN(name) - len - 1); 
} 
} else { 
// 2) 通过 Use 导 入 一 个 类 的 情况 ， 用 法 b 
// 直 接 根据 原始 类 名 查找 
zend_string *import_name 
= zend_hash_find_ptr_lc(FC(imports), ZSTR_VAL(na 
me), ZSTR_LEN(name)); 





if (import_name) { 
return zend_string_copy(import_name); 


} 

// 没 有 使 用 use 或 没命 中 任何 use 导入 的 namespace， 按 照 基本 用 法 处 理 : 如 果 当 
前 在 一 个 hamespace 下 则 解释 为 currentnamespace\my_class 

return zend_ prefix with_ns(name ) ， 


此 方法 除了 类 的 名 称 后 还 有 一 个 type 参 数 ， 这 个 参数 是 解析 语法 是 根据 使 用 方式 确 
定 的 ， 共 有 三 种 类 型 : 


。ZEND_NAME_NOT_FQ: 非 限定 名 称 ， 也 就 是 普通 的 类 名 ， 没 有 加 


namespace， 比 如 ` new my_class() 
。ZEND_NAME_RELATIVE: 相对 名 称 ， 强 制 按照 当前 所 属 命名 空间 解析 ， 使 用 
时 通过 在 类 前 加 "namespace\Xx"， 比 如 : new namespace\my_class()， 如 果 
当前 是 全 局 空间 则 等 价 于 :new my_class， 如 果 当 前 命名 空间 为 
currentnamespace， 则 解析 为 "currentnamespace\my Class" 
。ZEND_NAME_FQ: 完全 限定 名 称 ， 即 以 "开头 的 


(2) 补 全 函数 名 、 常 量 名 
函数 与 常量 名 称 的 补 全 操作 是 相同 的 : 


// 补 全 函数 名 称 
zend_string *zend_resolve_function_name(zend_string *name, uint3 
2_t type, zend_bool *is_fully_qualified) 
{ 
return zend_resolve_non_class_name( 
name, type, is_fully_qualified, ©, FC(imports_function)) 
} 
// 补 全 常量 名 称 
zend_string *zend_resolve_const_name(zend_string *name, uint32_t 
type, zend_bool *is_fully_qualified) 
return zend_resolve_non_class_name( 
name, type, is_fully_qualified, 1, FC(imports_const)); 


可 以 看 到 有 函数 与 常量 最 终 调用 同一 方法 处 理 ， 不 同 点 在 于 传 入 了 各 自 的 存储 哈 布 


zend String *zend resolve non class namet 
zend String "name, uint32_t type, zend bool "ie fully qualif 
ied, 
zend_bool case_sensitive, HashTable *current_import_sub 
ya 
char *compound; 
*is_fully_qualified = go: 
// 完 整 名 称 ， 直 接 返回 ， 不 需要 补 全 
if (ZSTR_VAL(name)[0] == '\\') { 
*is_fully_qualified = 1; 
return zend_string_init(ZSTR_VAL(name) + 1, ZSTR_LEN(nam 
e) - 1, 0); 
} 
// 与 类 的 用 法 相同 
if (type == ZEND_NAME_RELATIVE) { 
*is_fully_qualified = 1; 
return zend_prefix_with_ns(name); 
} 
//current_import_sub 如 果 是 函数 则 为 FC(imports_function)， 否 则 为 FC 
(imports_const) 
if (current import sub) { 
// 查 找 FC(imports_function) 或 FC(imports_const) 


} 
// 查 找 FC(imports) 
compound = memchr(ZSTR VAL(name), '\\', ZSTR_LEN(name)); 


return zend_ prefix_ with_ns(name); 


可 以 看 到 ， 遂 数 与 常量 的 的 补 全 逻辑 只 是 优先 用 原始 名 称 去 FC(imports_function) 或 
FC(imports_const) 查 找 ， 如 果 没 有 找到 再 去 FC(imports) 中 匹配 。 如 果 我 们 这 样 导 
入 了 一 个 函数 : use function aa\bb\my_func; ， 编 译 my_func() 会 在 
FC(imports_function) 中 根据 "my_func" 找 到 "aa\bb\my_func"， 从 而 使 用 完整 的 这 个 
名 称 。 


8.3.3 动态 用 法 


前 面 介绍 的 这 些 命名 空间 的 使 用 都 是 名 称 为 CONST 类 型 的 情况 ， 所 有 的 处 理 都 是 
在 编译 环节 完成 的 ，PHP 是 动态 语言 ， 能 否 动态 使 用 命名 空间 呢 ? 举 个 例子 : 


$class_name = "\aa\bb\my_class"; 
$obj = new $class_name; 


如 果 类 似 这 样 的 用 法 只 能 只 用 完全 限定 名 称 ， 也 就 是 按照 实际 存储 的 名 称 使 用 ， 无 
法 进行 自动 名 称 补 全 。 


附录 1 : break/continue 按 标签 中 断 语法 实现 


a% 
11 背景 
首先 看 下 目前 PHP 中 break/continue 多 层 循 环 的 情况 : 


// Loop) 
WE (A 


人 OOp2 


for(...){ 
M OOPS 
foreach(...){ 


break 2; 


break 2 表示 要 中 断 往 上 数 两 层 也 就 是 loop2 这 层 循 环 ， break 2 之 后 将 从 
loop2 end 开 始 继续 执行 。PHP 的 break、continue 只 能 根据 数值 中 断 对 应 的 循环 ， 
当 嵌 套 循环 比较 多 的 时 候 这 种 方式 维护 起 来 就 变 得 很 不 方便 ， 需 要 一 层 层 的 去 数 要 
中 断 的 循环 。 


了 解 Go 语言 的 读者 应 该 知道 在 Go 中 可 以 按照 标签 中 断 ， 举 个 例子 来 看 : 


EE 
//test.go 


func main() { 


loop1: 
Fonti =o e ee E 
fmt.Println("loop1") 

For J ss O J s Sp Jim i 
fmt.Println(" loop2") 
if j = 2 { 

break loop1 
b 
} 
} 
} 


go run test.go 将 输出 : 


loop1 
loop2 
loop2 
loop2 


break loop? 这 种 语法 在 PHP 中 是 不 支持 的 ， 接 下 来 我 们 就 对 PHP 进 行 改造 ， 让 
PHP 实 现 同样 的 功能 。 


1.2 实现 


想 让 PHP 支 持 类 似 Go 语言 那样 的 语法 首先 需要 明确 PHP 中 循环 及 中 断 语 句 的 实 


现 ， 关 于 这 两 部 分 内 容 前 面 《PHP 基 础 语法 实现 》 一 章 已 经 详细 介绍 过 了 ， 这 里 再 
简单 概括 下 实现 的 关键 点 : 


e 不 管 是 哪 种 循环 结构 ， 其 编译 时 都 生成 了 一 个 zend_brk_cont_element 结 
构 ， 此 结构 记录 着 这 个 循环 break、continue 要 跳 转 的 位 置 ， 以 及 获 套 的 父 层 循 
环 

e break/continue 编 译 时 分 为 两 个 步骤 : 首先 初步 编译 为 临时 opcode， 此 opcode 
记录 着 break/continue 所 在 循环 层 以 及 要 中 断 的 层级 ( 即 : break n : SEIL 
n=1) ; 然后 在 脚本 全 部 编译 完 之 后 的 pass_two() 中 ， 根 据 当 前 循环 层 及 中 断 的 


层级 n 向 上 查找 对 应 的 循环 层 ， 最 后 根据 查找 到 的 要 中 断 的 循 
环 zend_brk_cont_element 结构 得 到 对 应 的 跳 转 位 置 ， 生 成 一 条 
ZEND_JMP 指 令 


仔细 研究 循环 、 中 断 的 实现 可 以 发 现 ， 这 里 面 的 关键 就 在 于 找到 break/continue 要 
中 断 的 那 层 循环 ， 嵌 套 循环 之 间 是 链表 的 结构 ， 所 以 目前 的 查找 就 变 得 很 容易 了 ， 
直接 从 break/continue 当 前 循环 层 向 前 移动 n 即 可 。 


签 在 内 核 中 通过 HashTable 的 结构 保存 ( 即 : CG(context).labels) ，Kkey 就 是 标签 
， 标签 会 记录 当前 opcode 的 位 置 ， 我 们 要 实现 break 标签 的 语法 需要 根据 标签 
取 到 循环 ， 因 此 我 们 为 标签 赋予 一 种 新 的 含义 : 循环 标签 ， 只 有 标签 紧 挨 着 循环 的 
才 认 为 是 这 种 含义 ， 比 如 : 


loop1: 
for(...){ 


标签 与 循环 之 间 有 其 它 表 达 式 的 则 只 能 认为 是 普通 标签 : 


loop1: 
EE 
Rei EE E 
} 


既然 要 按照 标签 进行 break、continue， 那 么 很 容易 想到 把 中 断 的 循环 层级 id 保存 到 
标签 中 ， 编 译 break/continue 时 先 查找 标签 ， 再 查找 循环 

的 zend_brk_cont_element 即 可 ， ea 

己 zend brk cont element 的 存储 位 置 保存 到 标签 中 ， 标 签 的 结构 需要 修改 ， 另 
外 一 个 问题 是 标签 编译 不 会 生成 任何 opcode， 循 环 结构 无 法 Ee 
opcode 判 断 它 是 不 是 循环 标签 ， 所 以 我 们 换 一 种 方式 实现 ， 具 体 思 路 如 下 


e (1) 循环 结构 开始 编译 前 先 编译 一 条 空 opcode(ZEND_NOP)， 用 于 标识 这 是 一 
个 循环 ， 并 把 这 个 循环 zend_brk_cont_element 的 存储 位 置 记录 在 此 
opcode 中 

e (2) break 编 译 时 如 果 发 现 是 一 个 标签 ， 则 从 CG(context).labels) 中 取出 标签 结 
构 ， 然 后 判断 此 标签 的 下 一 条 opcode 是 否 为 ZEND_NOP， 如 果 不 是 则 说 明 这 


不 是 一 个 > 循环 标签， 无 法 break/continue， 如 果 是 则 取出 循环 结构 

e (3) 得 到 循环 结构 之 后 的 处 理 就 比较 简单 了 ， 但 是 此 时 还 不 能 直接 编译 为 
ZEND JMP， 因 为 循环 可 能 还 未 编译 完成 ，break 只 能 编译 为 临时 opcode， 这 
里 可 以 把 标签 标记 的 循环 存储 位 置 记录 在 临时 opcode 中 ， 然 后 在 pass_two() 中 
再 重新 获取 ， 需 要 对 pass_two() 中 的 逻辑 进行 改动 ， 为 减少 改动 ， 这 个 地 方 转 
化 一 下 实现 方式 : 计算 label 标 记 的 循环 相对 break 所 在 循环 的 位 置 ， 也 就 是 转 
为 现 有 的 break n ， 这 样 以 来 就 无 需 对 pass_two() 进 行 改动 了 


接 下 来 看 下 具体 的 实现 ， 以 for 为 例 。 


(1) 编译 循环 语 名 


void zend compile for(zend ast *ast) 


zend_ast *init_ast ast->child[0]; 


zend_ast *cond_ast = ast->child[1]; 
zend_ast *loop_ast = ast->child[2]; 
zend_ast *stmt_ast = ast->child[3]; 


znode result; 
uint32_t opnum_start, opnum_jmp, opnum_loop; 


zend_op *mark_look_opline; 


// 新 增 : 创建 一 条 空 opcode， 用 于 标识 接 下 来 是 一 个 循环 结构 
mark_look_opline = zend_emit_op(NULL, ZEND_NOP, NULL, NULL); 


zend_compile_expr_list(&result, init_ast); 
zend_do_free(&result); 


opnum_jmp = zend_emit_jump(0); 
zend_begin_loop(ZEND_NOP, NULL); 
// 新 增 : 保存 当前 循环 的 brk， 同 时 为 了 防止 与 其 它 ZEND_NOP 混 淆 ， 把 0p1 标 为 -1 


mark_look_opline->op1.var = -1; 
mark_look_opline->extended value = CG(context).current brk_c 


(2) 编译 中 断 语句 


首先 明确 一 点 break label 将 被 编译 为 以 下 语法 结构 : 


kind:ZEND_AST_BREAK 









kind:ZEND_AST_CONST 


kind:ZEND_AST_ZVAL 


ZEND_AST_BREAK 只 有 一 个 子 节点 ， 如 果 是 数值 那么 这 个 子 节点 类 型 

为 ZEND_AST_ZVAL ， 如 果 是 标签 则 类 型 

是 ZEND_AST_CONST ， ZEND_AST_CONST 也 有 一 个 类 型 为 ZEND_AST_ZVAL 子 节 
点 。 下 面 看 下 break/continue 修 改 后 的 编译 逻辑 : 


void zend compile break continue(zend ast *ast) 


{ 
zend_ast *depth aset = ast->child[0]; 


zend_op *opline; 
int depth; 


ZEND_ASSERT(ast->kind == ZEND_AST_BREAK || ast->kind == ZEND 
AGT CONTINUE): 


if (CG(context).current_brk_cont == -1) { 
zend_error_noreturn(E_COMPILE_ERROR, "'%s' not in the '1 
oop or ‘switch! context“, 
ast->kind == ZEND_AST_BREAK ? "break" : "continue"); 


if (depth ast) { 


switch(depth_ast->kind){ 
case ZEND_AST_ZVAL: //break 数值 ; 
{ 


zval *depth_zv; 


depth_zv = zend ast_get_zval(depth_ast ) ， 
if (Z_TYPE_P(depth_zv) != IS_LONG || Z_LVAL 
P(depth_zv) < 1) { 
zend_error_noreturn(E_COMPILE_ERROR, "'% 
s' operator accepts only positive numbers", 
ast->kind == ZEND_AST_BREAK ? "b 


reak" : “continue™); 
} 
depth = Z_LVAL_P(depth_zv); 
break; 
} 
case ZEND_AST_CONST://break 标签 ， 
{ 
// 获 取 label 名 称 
zend_string *label = zend ast oer _ str(depth_ 
ast->child[0]); 
// 根 据 label 获 取 标 记 的 循环 ， 以 及 相对 break 所 在 循环 的 
位 置 
depth = zend Loop oer depth_ by_label(1label); 
if(depth > oul 
goto SET DP: 
} 
break; 
} 
default: 


zend_error_noreturn(E_COMPILE_ERROR, "'%s' opera 
tor with non-constant operand " 


"is no longer supported", ast->kind == 


END_AST_BREAK ? "break" : "continue" ); 
} 
} else { 
depth = 1; 
} 


if (!zend_handle_loops_and_finally_ex(depth)) { 
zend_error_noreturn(E_COMPILE_ERROR, "Cannot '%s' %d lev 
el%s", 
ast->kind == ZEND_AST_BREAK ? "break" : "continu 
e"; 


depth depth ——1i3nmn rr "enn: 


GET OP: 

opline = zend_emit_op(NULL, ast->kind == ZEND AGT BREAR ? ZE 
ND_BRK : ZEND_CONT, NULL, NULL); 

opline->opi.num = CG(context).current_brk_cont; 


opline->op2.num = depth; 


zend_loop_get_depth_by_label() 这 个 函数 用 来 计算 标签 标记 的 循环 相对 
break/continue 所 在 循环 的 层级 : 


int zend_loop_get_depth_by_label(zend_string "Label name 
{ 

zval *label_zv; 

zend_label *label; 

zend_op *next_opline; 


if (UNEXPECTED(CG(context).labels == NULL)){ 
zend_error_noreturn(E_COMPILE_ERROR, "can't find label: ' 
%s' or it not mark a loop", ZSTR_VAL(label_name)); 


} 


// 1) 查找 label 
label_zv = zend_hash_find(CG(context).labels, label_name); 
if (UNEXPECTED(label_zv == NULL)){ 
zend_error_noreturn(E_COMPILE_ERROR, "can't find label: ' 
%s' or it not mark a loop", ZSTR_VAL(label_name)); 


} 
label = (end Label *)Z_PTR_P(label_zv); 


// 2) 获取 label 下 一 条 opcode 
next_opline = &(CG(active op_array)->opcodes[label->opline_n 
um] ) ， 
if (UNEXPECTED(next_opline == NULL)){ 
zend_error_noreturn(E_COMPILE_ERROR, "can't find label: ' 
%s' or it not mark a loop", ZSTR_VAL(label_name)); 


int label_brk_offset, curr_brk_offset; // 标 签 标 识 的 循环 、break 
当前 所 在 循环 


int depth = 0; //break 当 前 循环 至 标签 循环 的 层级 
zend_ brk_cont element *brk_ cont element,; 


if(next_opline->opcode == ZEND_NOP && next_opline->op1.var = 
= -Dy 
label_brk_offset = next_opline->extended_value; 
curr_brk_offset = CG(context).current_brk_cont; 


brk_cont_element = &(CG(active_op_array)->brk_cont_array 
[curr_brk_offset]); 
// 计 算 标 签 标记 的 循环 相对 位 置 
while(1){ 
depth++; 


if(label_brk_offset == curr_brk_offset){ 
return depth; 


curr_brk_offset = brk_cont_element->parent; 
if(curr_brk_offset < 0){ 
//label 标 识 的 不 是 break 所 在 循环 
zend_error_noreturn(E_ COMPILE ERROR, "can't brea 
k/conitnue label:'%s' because it not mark a loop", ZSTR_VAL(labe 
l_name)); 


} 
}else{ 
//1label 没 有 标识 一 个 循环 
zend_error_noreturn(E COMPILE ERROR, "can't break/conitn 
ue Label: '%s' because it not mark a loop", ZSTR_VAL(label name)) 


return -1; 


改动 后 重新 编译 PHP， 然 后 测试 新 的 语法 是 否 生效 : 
//test.php 


loop1: 
for($i = 0; $I < 2; 1 
echogloopTNn 


for($j = 0; $j < 5; $j++){ 
echo =  Toop2\nt; 
if($j == 2){ 
break Loop: 


php test.php 输出 : 


loop1 
loop2 
loop2 
loop2 


其 它 几 个 循环 结构 的 改动 与 for 相 同 ， 有 兴趣 的 可 以 自己 去 尝试 下 。 


